Используйте метод дистилляции. Запустите еще несколько раз, чтобы решить нужную задачу с минимальными затратами - Самые разные темы

Китайская нейросеть R1 от DeepSeek превзошла модель o1 от OpenAI

Genius Ideaing · 2025-01-27T13:40:10.0000000Z

Китайская нейросеть R1 от DeepSeek превзошла модель o1 от OpenAI

244

minsky

30 января 2025, 05:14

#131

А мне как то больше Qwen 2.5 китайский понравился, да и вроде по тестам пишут, что мощнее

Продвигаю сайты ссылками, ускоряю индексацию сайтов и отдельных страниц ( https://kwork.ru/user/minsky)

[Удален]

30 января 2025, 09:18

#132

chaturanga #:
Запустил на 14b, отпишу по факту.

alexbez #:
В решении такая строка есть

А не подскажете, что вы используете, чтобы развернуть эти модели локально? Я правильно понимаю, что это какие-то библитоеки, возможно на python, pytorch иди что то еще? Не поделитесь инструкцией по развертыванию?

A

161

alexbez

30 января 2025, 09:33

#133

TrustManager #:

А не подскажете, что вы используете, чтобы развернуть эти модели локально? Я правильно понимаю, что это какие-то библитоеки, возможно на python, pytorch иди что то еще? Не поделитесь инструкцией по развертыванию?

Вот достаточно простой вариант расписан

https://habr.com/ru/articles/876320/

1

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

2025.01.24
habr.com

Многие говорят о DeepSeek R-1 - новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI. В настоящее время DeepSeek можно использовать бесплатно, что является отличной новостью для...

[Удален]

30 января 2025, 10:58

#134

alexbez #:
Вот достаточно простой вариант расписан

Спасибо, скачал 14В, запустил на MacBook Pro i7-2.3 10G 32RAM VRam IntelIris
На вопрос сравнить популярные фреймворки думал примерно 10 минут, в итоге предложил только 2, онлайн модель сделала обзор 6.
Запустил обсчет приведенного chaturanga уравнения - думает уже 20 минут)))

Кстати проц загружен на 70%, GPU не использует почему-то, оперативы выжрал в районе 20Гиг

ВКонтакте запустила раздел «Покупки» Ozon сделал «Моменты» доступными Одноклассники запустили анонимный чат

100

не хаос

30 января 2025, 13:43

#135

Интересный факт, для общего развития, для кругозора.

На сегодняшний день ни один математик с гражданством Китая не получил Филдсовскую премию напрямую как представитель Китая.

126

Genius Ideaing

30 января 2025, 18:19

#136

не хаос #:
На сегодняшний день ни один математик с гражданством Китая не получил Филдсовскую премию напрямую как представитель Китая

дискриминация китайской национальности? а как она называется?

если в отношении русских - русофобия..

а в отношении китайцев? китаяфибия? китаефобия?

1

Заработок в $$$ на трафике сайта здесь: https://clck.ru/3REcmY / Не РСЯ/adSense! / Есть Идеи! Ищу хороших людей для реализации этих идей! Мой Telegram: https://clck.ru/396JFF

L

465

Lastwarrior

31 января 2025, 07:28

#137

Китайцы сильно отстают в технологиях и будут сильно отставать и дальше от передовых стран. Украсть и скопировать что-то это да, они мастера, но не более того.

1

Пробуй эту видео-партнерку вместо РСЯ - https://vk.cc/cXeL62 Отличные рейты по выкупу траффа, платят криптой по запросу.

100

не хаос

31 января 2025, 07:45

#138

Первая ласточка. В Италии уже послали лесом этих разработчиков.

"В Италии заблокировали китайский чат-бот DeepSeek

Об этом сообщил местный регулятор Garante. Ранее он обратился к разработчикам DeepSeek с просьбой раскрыть, какие персональные данные итальянских пользователей собирает их бот. А также рассказать, как они хранятся и обрабатываются в соответствии с GDPR — регламентом по защите данных, который действует в Евросоюзе с 2018 года.

По заявлению регулятора, ответ разработчиков его не устроил. Те сообщили, что не работают в Италии и что европейское законодательство на них не распространяется. " (с) Медуза лайв

Ирландский регулятор заинтересовался утечкой Общая сумма штрафов за Ирландский регулятор разберётся, соблюдает

V1

179

vitaliy11

31 января 2025, 08:23

#139

не хаос #:
А также рассказать, как они хранятся и обрабатываются в соответствии с GDPR — регламентом по защите данных, который действует в Евросоюзе с 2018 года.

Так уже же писали, что нашли базу в открытом доступе через show tables. Но уже убрали эту уязвимость. Ждем когда новая появится ))

"Специалисты в области кибербезопасности из Wiz Research решили оценить уровень конфиденциальности в нашумевшей DeepSeek и «за несколько минут» нашли общедоступную базу данных ClickHouse — это система, разработанная «Яндексом».

В ней хранилась история чатов, ключи API, данные о бэкенде и операционные метаданные — «миллионы строк» в журналах, которые велись с 6 января 2025 года.

Уязвимость позволяла «полностью контролировать базу данных без какой-либо аутентификации или механизма защиты»."

Яндекс публикует исходный код Особенности работы Яндекс.Метрики Данные тысяч клиентов криптокредитной

100

не хаос

31 января 2025, 09:07

#140

"Указать на одну инновацию, за счет использования которой это было сделано, невозможно: модель имеет сразу несколько важных особенностей, которые в сочетании друг с другом позволили оптимизировать вычислительные ресурсы и достичь заявленных результатов.

Ни одна из них, однако, не является чем-то принципиально новым для современных больших языковых моделей, построенных на архитектуре трансформера. В модели, например, используется одновременное предсказание не одного, а нескольких следующих токенов, что позволяет ускорить и удешевить генерацию текста. Такое изменение в исходной архитектуре трансформера в индустрии обсуждали еще с 2020 года, но его неохотно внедряли в современные модели. Другая особенность новой модели — технология multi-headed latent attention, позволяющая акцентировать внимание на определенных частях предложения и эффективнее использовать вычислительные ресурсы при обучении.

Кроме того, в вычислениях модели используют числовые типы с плавающей запятой пониженной точности: 16- и 8-битных. Теоретически это позволяет снизить требования по использованию памяти в вычислениях, но имеет свои недостатки, степень важности которых зависит от конкретной реализации алгоритма. Использованию таких типов в машинном обучении посвящены десятки научных статей — например, сотрудники Nvidia предлагалииспользовать такой подход и разрабатывали алгоритмы на его основе еще в 2022 году).

Китайский ИИ (предсказуемо) цензурирует некоторые ответы. А разработчиков подозревают в использовании чужих данных для обучения

Именно сокращение вычислительных ресурсов, необходимых для обучения модели, вызвало резкую реакцию на американском фондовом рынке. Газета The New York Times пишет, что сейчас ведущим мировым компаниям для обучения ИИ-моделей нужно от 16 тысяч чипов. Инженеры DeepSeek заявили, что использовали в восемь раз меньше.

До сих пор считалось, что разработкой ИИ-систем могут заниматься только технологические гиганты и стартапы, обеспечившие себе огромные инвестиции. Пример DeepSeek (возможно) показал, что аналогичных результатов можно добиться с гораздо меньшими ресурсами. Это пошатнуло веру инвесторов в бум искусственного интеллекта в США, и конкретно — в будущее Nvidia, чипы которой используются при создании ИИ-моделей.

Западные медиа уже назвали запуск DeepSeek «моментом спутника», то есть переломным эпизодом, который должен заставить всех лидеров в области искусственного интеллекта пересмотреть свой подход к разработке. " (с) Медуза - лайв

Яндекс внедряет новую нейросетевую Google рассказал об «ответственном Яндекс.Облако открывает доступ к

Open AI тестирует память для ChatGPT

Что делать, чтобы попасть в ответы Google Bard

Китайская нейросеть R1 от DeepSeek превзошла модель o1 от OpenAI

Китайский ИИ (предсказуемо) цензурирует некоторые ответы. А разработчиков подозревают в использовании чужих данных для обучения