Что известно:
• В тестах на сверх-интеллект она смогла обойти результаты людей.
• Модель на 30% круче справляется с кодом и математикой, в сравнении с предыдущей o1.
• Она занимает 175 место в рейтинге программистов МИРА.
• Из-за проблем с китайцами o3-mini пообещали раздать БЕСПЛАТНО.
Все на низком старте?" (С)
📢 Айтишная
Ни одна из них, однако, не является чем-то принципиально новым для современных больших языковых моделей, построенных на архитектуре трансформера. В модели, например, используется одновременное предсказание не одного, а нескольких следующих токенов, что позволяет ускорить и удешевить генерацию текста. Такое изменение в исходной архитектуре трансформера в индустрии обсуждали еще с 2020 года, но его неохотно внедряли в современные модели. Другая особенность новой модели — технология multi-headed latent attention, позволяющая акцентировать внимание на определенных частях предложения и эффективнее использовать вычислительные ресурсы при обучении.
Кроме того, в вычислениях модели используют числовые типы с плавающей запятой пониженной точности: 16- и 8-битных. Теоретически это позволяет снизить требования по использованию памяти в вычислениях, но имеет свои недостатки, степень важности которых зависит от конкретной реализации алгоритма. Использованию таких типов в машинном обучении посвящены десятки научных статей — например, сотрудники Nvidia предлагалииспользовать такой подход и разрабатывали алгоритмы на его основе еще в 2022 году).
Именно сокращение вычислительных ресурсов, необходимых для обучения модели, вызвало резкую реакцию на американском фондовом рынке. Газета The New York Times пишет, что сейчас ведущим мировым компаниям для обучения ИИ-моделей нужно от 16 тысяч чипов. Инженеры DeepSeek заявили, что использовали в восемь раз меньше.
До сих пор считалось, что разработкой ИИ-систем могут заниматься только технологические гиганты и стартапы, обеспечившие себе огромные инвестиции. Пример DeepSeek (возможно) показал, что аналогичных результатов можно добиться с гораздо меньшими ресурсами. Это пошатнуло веру инвесторов в бум искусственного интеллекта в США, и конкретно — в будущее Nvidia, чипы которой используются при создании ИИ-моделей.
Западные медиа уже назвали запуск DeepSeek «моментом спутника», то есть переломным эпизодом, который должен заставить всех лидеров в области искусственного интеллекта пересмотреть свой подход к разработке. " (с) Медуза - лайв