Китайская нейросеть R1 от DeepSeek превзошла модель o1 от OpenAI

minsky
На сайте с 01.09.2012
Offline
193
#131
А мне как то больше Qwen 2.5 китайский понравился, да и вроде по тестам пишут, что мощнее
Продвигаю сайты ссылками, ускоряю индексацию сайтов и отдельных страниц ( https://kwork.ru/user/minsky?ref=23382 )
TM
На сайте с 14.09.2024
Offline
0
#132
chaturanga #:
Запустил на 14b, отпишу по факту.
alexbez #:
В решении такая строка есть

А не подскажете, что вы используете, чтобы развернуть  эти модели локально? Я правильно понимаю, что это какие-то библитоеки, возможно на python, pytorch иди что то еще? Не поделитесь инструкцией по развертыванию?

A
На сайте с 03.02.2007
Offline
148
#133
TrustManager #:

А не подскажете, что вы используете, чтобы развернуть  эти модели локально? Я правильно понимаю, что это какие-то библитоеки, возможно на python, pytorch иди что то еще? Не поделитесь инструкцией по развертыванию?

Вот достаточно простой вариант расписан

https://habr.com/ru/articles/876320/

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере
Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере
  • 2025.01.24
  • habr.com
Многие говорят о DeepSeek R-1 - новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI. В настоящее время DeepSeek можно использовать бесплатно, что является отличной новостью для...
TM
На сайте с 14.09.2024
Offline
0
#134
alexbez #:
Вот достаточно простой вариант расписан

Спасибо,  скачал 14В, запустил на MacBook Pro i7-2.3 10G 32RAM VRam IntelIris
На вопрос сравнить популярные фреймворки думал примерно 10 минут, в итоге  предложил только 2, онлайн модель сделала обзор 6.
Запустил обсчет приведенного chaturanga уравнения - думает уже 20 минут)))

Кстати проц загружен на 70%, GPU не использует почему-то, оперативы выжрал в районе 20Гиг

не хаос
На сайте с 18.10.2021
Offline
74
#135
Интересный факт, для общего развития, для кругозора.
На сегодняшний день ни один математик с гражданством Китая не получил Филдсовскую премию напрямую как представитель Китая.
Genius Ideaing
На сайте с 12.02.2024
Offline
72
#136
не хаос #:
На сегодняшний день ни один математик с гражданством Китая не получил Филдсовскую премию напрямую как представитель Китая

дискриминация китайской национальности? а как  она называется?

если в отношении русских  - русофобия..

а в отношении китайцев? китаяфибия? китаефобия?

Дешёвый хостинг и домены: https://clck.ru/3FxXCa / Мощный хостинг: https://clck.ru/3DKmVu / Есть Идеи! Ищу хороших людей для реализации этих идей! Мой Telegram: https://clck.ru/396JFF
L
На сайте с 25.12.2013
Offline
410
#137
Китайцы сильно отстают в технологиях и будут сильно отставать и дальше от передовых стран. Украсть и скопировать что-то это да, они мастера, но не более того.
Недорогой, надежный и отзывчивый VPS хостинг ( https://bit.ly/3eXUnNN ) Проверенная пуш партнерка с ежедневными выплатами ( https://vk.cc/9wLSrL)
не хаос
На сайте с 18.10.2021
Offline
74
#138
Первая ласточка. В Италии уже послали лесом этих разработчиков.
"В Италии заблокировали китайский чат-бот DeepSeek


Об этом сообщил местный регулятор Garante. Ранее он обратился к разработчикам DeepSeek с просьбой раскрыть, какие персональные данные итальянских пользователей собирает их бот. А также рассказать, как они хранятся и обрабатываются в соответствии с GDPR — регламентом по защите данных, который действует в Евросоюзе с 2018 года.  


По заявлению регулятора, ответ разработчиков его не устроил. Те сообщили, что не работают в Италии и что европейское законодательство на них не распространяется. " (с) Медуза лайв

V1
На сайте с 14.03.2007
Offline
166
#139
не хаос #:
А также рассказать, как они хранятся и обрабатываются в соответствии с GDPR — регламентом по защите данных, который действует в Евросоюзе с 2018 года.

Так уже же писали, что нашли базу в открытом доступе через show tables. Но уже убрали эту уязвимость. Ждем когда новая появится ))

"Специалисты в области кибербезопасности из Wiz Research решили оценить уровень конфиденциальности в нашумевшей DeepSeek и «за несколько минут» нашли общедоступную базу данных ClickHouse — это система, разработанная «Яндексом».

В ней хранилась история чатов, ключи API, данные о бэкенде и операционные метаданные — «миллионы строк» в журналах, которые велись с 6 января 2025 года.

Уязвимость позволяла «полностью контролировать базу данных без какой-либо аутентификации или механизма защиты»."

не хаос
На сайте с 18.10.2021
Offline
74
#140
"Указать на одну инновацию, за счет использования которой это было сделано, невозможно: модель имеет сразу несколько важных особенностей, которые в сочетании друг с другом позволили оптимизировать вычислительные ресурсы и достичь заявленных результатов.

Ни одна из них, однако, не является чем-то принципиально новым для современных больших языковых моделей, построенных на архитектуре трансформера. В модели, например, используется одновременное предсказание не одного, а нескольких следующих токенов, что позволяет ускорить и удешевить генерацию текста. Такое изменение в исходной архитектуре трансформера в индустрии обсуждали еще с 2020 года, но его неохотно внедряли в современные модели. Другая особенность новой модели — технология multi-headed latent attention, позволяющая акцентировать внимание на определенных частях предложения и эффективнее использовать вычислительные ресурсы при обучении.

Кроме того, в вычислениях модели используют числовые типы с плавающей запятой пониженной точности: 16- и 8-битных. Теоретически это позволяет снизить требования по использованию памяти в вычислениях, но имеет свои недостатки, степень важности которых зависит от конкретной реализации алгоритма. Использованию таких типов в машинном обучении посвящены десятки научных статей — например, сотрудники Nvidia предлагалииспользовать такой подход и разрабатывали алгоритмы на его основе еще в 2022 году).

Китайский ИИ (предсказуемо) цензурирует некоторые ответы. А разработчиков подозревают в использовании чужих данных для обучения

Именно сокращение вычислительных ресурсов, необходимых для обучения модели, вызвало резкую реакцию на американском фондовом рынке. Газета The New York Times пишет, что сейчас ведущим мировым компаниям для обучения ИИ-моделей нужно от 16 тысяч чипов. Инженеры DeepSeek заявили, что использовали в восемь раз меньше.

До сих пор считалось, что разработкой ИИ-систем могут заниматься только технологические гиганты и стартапы, обеспечившие себе огромные инвестиции. Пример DeepSeek (возможно) показал, что аналогичных результатов можно добиться с гораздо меньшими ресурсами. Это пошатнуло веру инвесторов в бум искусственного интеллекта в США, и конкретно — в будущее Nvidia, чипы которой используются при создании ИИ-моделей.

Западные медиа уже назвали запуск DeepSeek «моментом спутника», то есть переломным эпизодом, который должен заставить всех лидеров в области искусственного интеллекта пересмотреть свой подход к разработке. " (с) Медуза - лайв

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий