Какво е DeepSeek, AI чатботът от Китай, който изпраща шокови вълни в света на технологиите?

Какво е DeepSeek, AI чатботът от Китай, който изпраща шокови вълни в света на технологиите?

DeepSeek-R1, най-новият в серия от модели, разработени с по-малко чипове и на ниска цена, оспорва господството на OpenAI, Google и Meta.

Едноименният голям езиков модел (LLM) на китайската лаборатория за изкуствен интелект (AI) DeepSeek изуми Силиконовата долина, като се превърна в един от най-големите конкуренти на ChatGPT на американската фирма OpenAI.

Твърди се, че най-новите модели DeepSeek, пуснати този месец, са изключително бързи и евтини.

DeepSeek-R1, последният от моделите, разработени с по-малко чипове, вече предизвиква доминацията на гигантски играчи като OpenAI, Google и Meta, което доведе до спад на акциите на производителя на чипове Nvidia в понеделник.

Ето какво знаем за разрушителя на индустрията от Китай.

Откъде идва DeepSeek?
Базираната в Хангжу, Китай компания е основана през юли 2023 г. от Liang Wenfeng, инженер по информация и електроника и възпитаник на университета Zhejiang.

Това беше част от инкубационната програма на High-Flyer, фонд, основан от Liang през 2015 г. Liang, подобно на други водещи имена в индустрията, се стреми да достигне нивото на „общ изкуствен интелект“, който може да настигне или надмине хората в различни задачи .

Работейки независимо, моделът на финансиране на DeepSeek му позволява да преследва амбициозни AI проекти без натиск от външни инвеститори и да дава приоритет на дългосрочните изследвания и разработки.

Екипът на DeepSeek се състои от млади висшисти от най-добрите китайски университети, с процес на набиране на персонал в компания, който дава приоритет на техническите умения пред трудовия опит.

Накратко, смята се, че има нова перспектива в процеса на разработване на модели с изкуствен интелект.

Пътуването на DeepSeek започна през ноември 2023 г. с пускането на DeepSeek Coder, модел с отворен код, предназначен за задачи по кодиране.

Това беше последвано от DeepSeek LLM, който имаше за цел да се конкурира с други основни езикови модели. DeepSeek-V2, пуснат през май 2024 г., придоби популярност поради високата си производителност и ниска цена.

Това също принуди други големи китайски технологични гиганти като ByteDance, Tencent, Baidu и Alibaba да намалят цените на своите AI модели.

Какъв е капацитетът на моделите DeepSeek?
DeepSeek-V2 по-късно беше заменен от DeepSeek-Coder-V2, по-усъвършенстван модел с 236 милиарда параметъра.

Проектиран за сложни подкани за кодиране, моделът има висок контекстен прозорец до 128 000 токена.

Токенът е единица в текст. Тази единица често може да бъде дума, частица (като „изкуствен“ и „интелект“) или дори знак. Например: "Изкуственият интелект е страхотен!" може да се състои от четири токена: "изкуствен", "интелект", "страхотен", "!".

Контекстният прозорец от 128 000 токена е максималната дължина на въведен текст, който моделът може да обработва едновременно.

По-големият контекстен прозорец позволява на модела да разбира, обобщава или анализира по-дълги текстове. Това е голямо предимство, например, когато работите върху дълги документи, книги или сложни диалози.

Най-новите модели на компанията DeepSeek-V3 и DeepSeek-R1 допълнително затвърдиха позициите си.

Модел с 671 000 параметъра, DeepSeek-V3 изисква значително по-малко ресурси от своите връстници, като същевременно се представя впечатляващо в различни бенчмарк тестове с други марки.

DeepSeek-R1, който беше пуснат този месец, се фокусира върху сложни задачи като разсъждения, кодиране и математика. Със своите възможности в тази област, той предизвиква o1, един от най-новите модели на ChatGPT.

Въпреки че DeepSeek постигна значителен успех за кратко време, компанията е фокусирана предимно върху изследванията и няма подробни планове за комерсиализация в близко бъдеще, според Forbes.

Безплатно ли е за крайния потребител?
Една от основните причини DeepSeek да привлече вниманието е, че е безплатен за крайните потребители.

Това е първата такава усъвършенствана AI система, достъпна безплатно за потребителите. Други мощни системи като OpenAI o1 и Claude Sonnet изискват платен абонамент. Дори някои абонаменти налагат квоти на потребителите.

Google Gemini също се предлага безплатно, но безплатните версии са ограничени до по-стари модели. DeepSeek засега няма ограничения.

Как да го използвате?
Потребителите имат достъп до интерфейса за чат на DeepSeek, разработен за крайния потребител на „chat.deepseek“. Достатъчно е да въведете команди на екрана за чат и да натиснете бутона "търсене", за да търсите в интернет.

Има опция "задълбочено мислене", за да получите по-подробна информация по всяка тема. Въпреки че тази опция предоставя по-подробни отговори на заявките на потребителите, тя също така може да търси повече сайтове в търсачката. Въпреки това, за разлика от ChatGPT, който търси само като разчита на определени източници, тази функция може също да разкрие невярна информация в някои малки сайтове. Следователно потребителите трябва да потвърдят информацията, която получават в този чат бот.

Безопасно ли е?
Друг важен въпрос относно използването на DeepSeek е дали е безопасно. DeepSeek, подобно на други услуги, изисква потребителски данни, които вероятно се съхраняват на сървъри в Китай.

Както при всеки LLM, важно е потребителите да не предоставят чувствителни данни на чатбота.

Тъй като DeepSeek също е с отворен код, независими изследователи могат да разгледат кода на модела и да се опитат да определят дали е защитен. По-подробна информация относно опасенията за сигурността се очаква да бъде публикувана през следващите дни.

Какво означава отворен код?
Моделите, включително DeepSeek-R1, са пуснати като до голяма степен отворен код. Това означава, че всеки може да получи достъп до кода на инструмента и да го използва, за да персонализира LLM. Данните за обучение са частна собственост.

OpenAI, от друга страна, пусна модела o1 затворен и вече го продава само на потребители, дори на потребители, с пакети от $20 (€19) до $200 (€192) на месец.

Как успя да произведе такъв модел въпреки ограниченията на САЩ?
Компанията също така е установила стратегически партньорства за подобряване на своите технологични възможности и пазарен обхват.

Едно от забележителните сътрудничества беше с американската компания за чипове AMD. Според Forbes, DeepSeek използва AMD Instinct GPU (графични процесори) и ROCM софтуер на ключови етапи от разработването на модела, особено за DeepSeek-V3.

MIT Technology Review съобщи, че Liang е закупил значителни запаси от чипове Nvidia A100, тип, който в момента е забранен за износ в Китай, много преди американските санкции за чипове срещу Китай.

Китайската медия 36Kr изчислява, че компанията има повече от 10 000 единици на склад. Някои казват, че тази цифра е 50 000.

Осъзнавайки значението на този запас за обучението на AI, Liang основава DeepSeek и започва да ги използва заедно с чипове с ниска мощност, за да подобри своите модели.

Но важното тук е, че Liang е намерил начин да изгради компетентни модели с малко ресурси.

Ограниченията за износ на чипове от САЩ принудиха разработчиците на DeepSeek да създадат по-интелигентни, по-енергийно ефективни алгоритми, за да компенсират липсата на изчислителна мощност.

Смята се, че ChatGPT се нуждае от 10 000 графични процесора Nvidia за обработка на данни за обучение. Инженерите на DeepSeek казват, че са постигнали подобни резултати само с 2000 GPU.

Каква беше реакцията на DeepSeek?
Александър Уанг, главен изпълнителен директор на ScaleAI, който предоставя данни за обучение на AI модели на големи играчи като OpenAI и Google, описа продукта на DeepSeek като "разтърсващ земята модел" в реч на Световния икономически форум (WEF) в Давос миналата седмица.

Докато DeepSeek изуми американските съперници, анализаторите вече предупреждават какво ще означава пускането му на Запад.

„Трябва да сме разтревожени. По-нататъшното интегриране на китайската AI технология в Обединеното кралство и западното общество е не просто лоша идея – това е безразсъдна идея“, каза Рос Бърли, съосновател на Центъра за информационна устойчивост.

„Виждали сме отново и отново как Пекин въоръжава технологичното си господство за наблюдение, контрол и принуда, както в страната, така и в чужбина. Независимо дали става въпрос чрез устройства, заредени с шпионски софтуер, спонсорирани от държавата киберкампании или злоупотреба с AI за потискане на несъгласие, Постиженията на Китай показват, че неговата технология е продължение на неговата геополитическа стратегия“, добави той.

„Това може да изглежда като доброкачествен голям езиков модел, но вече видяхме, че AI потиска информация, критична към китайското правителство“.

Други са съгласни, че ходът за издаване на последния LLM е политически ход, който вероятно ще разпали вече интензивните китайско-американски отношения.

„Технологичната иновация е реална, но моментът на пускане е политически по природа“, каза Грегъри Алън, директор на Wadhwani AI Center към Центъра за стратегически и международни изследвания, каза пред Associated Press.

Алън сравни съобщението на DeepSeek миналата седмица с пускането на нов телефон от санкционираната от САЩ китайска компания Huawei по време на дипломатически дискусии относно експортния контрол на администрацията на Байдън през 2023 г.

„Опитът да се покаже, че контролът върху износа е безполезен или контрапродуктивен, е наистина важна цел на китайската външна политика в момента“, каза Алън.

 

 

Тагове

Харесвате това, което правим?

Станете част от общността на BG Firmi във Viber
  • Новини
  • Свят
  • Автор: Администратор
  • 28.01.2025, 23:37
  • 163 прегледа
  • Източник: euronews.com

Връзки :