DeepSeek представляет модель следующего поколения ИИ

Компания заявляет, что её экономичная новая модель V4 конкурентоспособна с ведущими закрытыми моделями от OpenAI и Google DeepMind. (SCMP)

DeepSeek наконец выпустила долгожданную модель базового искусственного интеллекта следующего поколения — открытую версию V4, которая, по их словам, конкурентоспособна ведущим американским закрытым моделям от таких компаний, как OpenAI и Google DeepMind.

Стартап из Ханчжоу в области искусственного интеллекта выпустил две версии модели в пятницу: V4-pro имеет 1,6 триллиона параметров, что делает её самой крупной моделью компании по этому показателю, тогда как меньшая модель V4-flash имеет 284 миллиарда параметров. Большее количество параметров обычно коррелирует с большими возможностями модели, а также увеличивает вычислительные нагрузки на обучение и её обслуживание.

Обе модели имеют окно контекста в 1 миллион токенов — ключевую функцию, определяющую объём информации, которую может обрабатывать система ИИ, и, по словам DeepSeek, это было достигнуто с «ведущей в мире» экономичностью. Предыдущая флагманская модель DeepSeek имела окно контекста из 128 000 токенов.

Вскоре после выхода DeepSeek Huawei объявила о «полной поддержке» от своей линейки чипов Ascend и систем Supernode, которые будут обслуживать модели V4 для определения моделей. Технологический гигант из Шэньчжэня раскрыл больше деталей о сотрудничестве в прямом эфире в пятницу днем. Производитель чипов на базе искусственного интеллекта Cambricon Technologies также быстро объявил о совместимости с новыми моделями DeepSeek.

«В выпуске V4 явно упоминается совместимость с отечественными чипами», — заявили аналитики из Huatai Securities в записке для клиентов. «Мы можем рассчитывать на значительное улучшение возможностей отечественных видеокарт и их широкое внедрение в этом году.»

Хотя размер параметров V4-pro делает его чрезмерно большим для локального запуска на потребительском оборудовании, расширенный технический отчёт, описывающий архитектуру моделей и методы обучения V4, вероятно, будет полезен для глобальных разработчиков ИИ.

Модель с V4-flash также является одной из самых дешёвых передовых моделей на рынке, с токеновыми ценами, идентичными модели V2 от DeepSeek, выпущенной в июне 2024 года.

Компания заявила, что пропускная способность V4-pro в настоящее время ограничена дефицитом вычислительных материалов, добавив, что «цены значительно упадут» во второй половине года «как только суперузлы Ascend 950PR от Huawei выйдут в больших масштабах».

Как самая известная китайская компания в области искусственного интеллекта, релизы DeepSeek рассматриваются как показатель прогресса в полупроводниковой индустрии страны — смежном секторе, развитие которого было ограничено экспортным контролем США на современное оборудование для производства чипов.

До выхода V4 американские чиновники обвиняли DeepSeek в использовании запрещённых чипов Blackwell от лидера отрасли Nvidia для обучения своих моделей.

DeepSeek не раскрыл аппаратный стек, используемый для обучения V4. Однако в техническом отчёте упоминалась разработка «ядер» — кодов, определяющих функции графических процессоров (GPU), адаптированных как для чипов Nvidia, так и для Huawei.

Более широкая цепочка поставок чипов также получит выгоду: компания Eastern Communications из Ханчжоу в исследовательской записке для клиентов заявляет, что новая модель, как ожидается, повысит спрос на внутреннюю вычислительную мощность и ускорит адаптацию отечественных чипов для ведущих моделей, включая центральные процессоры (CPU).

Во время утренних торг акции Semiconductor Manufacturing International Corp, крупнейшей литейной компании Китая, котируются в Гонконге, выросли более чем на 8 процентов. Другие отечественные компании по производству чипов увидели рост благодаря новостям: Hua Hong Semiconductor выросла более чем на 12 процентов, а компания по производству процессоров Hygon Information Technology, котирующейся в Шанхае, — почти на 10 процентов.

Несмотря на предположения, что это будет мультимодальная модель, то есть она сможет обрабатывать видео и изображения наряду с текстом, флагманская модель DeepSeek остаётся только текстовой, при этом компания заявила, что «работает над внедрением мультимодальных возможностей».

Последний крупный релиз DeepSeek, R1, вызвал мировой фурор после сокращения разрыва в разработке между американскими и китайскими моделями до нескольких месяцев. Самооценённые затраты на обучение модели в 6 миллионов долларов также привели к тому, что американский гигант по производству чипов Nvidia потерял рыночную капитализацию почти на 600 миллиардов долларов за один день.

На этот раз, однако, DeepSeek промолчала как о расходах на обучение, так и о железе, в отличие от предыдущих моделей V3 и V2, которые, как было показано, были обучены на GPU Nvidia H800.

«Мы всегда будем придерживаться принципа долгосрочной перспективы, двигаться вперёд последовательно через методы проб, ошибок и размышлений, и стремиться приблизиться к цели достижения искусственного общего интеллекта», — заявила компания в пятницу.

Винсент Чоу

Вэнси Чен

(в пересказе)

Мнение авторов может не совпадать с мнением редакции. Cообщество журналистов. Non profit