Sly32

Рейтинг
389
Регистрация
29.03.2012
Должность
Software engineer
ArbNet #:
Мамба сжимает содержание\контент вот и всё,
нет - никакого отношения к сжатию она не имеет.
ArbNet #:
но сами алгоритмы вычисления весов так и остались, а именно это и затратно.

то есть у тебя есть другой алгоритм?

И мамба решает проблему attention  а не весов.
на сегодня есть несколько альтернатив но ни одна не реализована по многим причинам.
Назови хоть одну - которую ты готов решить?


Итак, итоги моего дня. В результате работы со своей моделью пришел к выводу что крайне сложно обучить нормальную модель на маленьком датасете.  Менял токенизацию, параметры - не работает. Итого варианты
1. Собрать больше данных - нужно от 30 мегабайт данных для обучения
2. Использовать  готовую модель от оллама и дообучить - это размер и время

3. Плюнуть и стрпться на RAG
Если нужны подробности  - спрашивайте

alaev #:

Местное население такой фигней не страдает.

Если ты считаешь, что твоя кожа чем-то отличается от кожи араба, то ты не прав.

конечно отличается - в наличии защитного пигментаЮ Про загар слыхал? Почему в Африке у аборигенов темная кожа - знаешь? Неужели вообще у тебя так все плохо со занниями? в это дело на не в 
alaev #:
Дело в другом - отсутствии критического мышления.
😂 ну что за день сегодня... то математике  меня учит двоецник, ткпкрь откровения про кожу.... А я понял - ты из поляков записал меня в афробелоруса)))
ArbNet #:
но там нет никаких матричных вычислений на самом деле.
Да что ты? а если проверим? При этом ты пишешь:
ArbNet #:
Там есть массивы,
Ты же писал что люил математику в техникуме? К доске идет... Арбнет! Вопрос  - какие операции с массивам вы знаете? что такое массив и что такое матрица? 😂 Садись, два!
ArbNet #:
Про Mamba я знаю давно, и там суть другая, не ускорение вычислений, а сжатое запоминание содержания.
Ты про мамба узнал полчаса назад когда я написал. Но как обычно недогуглил. трансформер = огромная композиция матричных умножений + нелинейностей. поэтому и спрос такой стал на GPU, что матричные вычисления отлично параллелятся  - то в чем силен видеопроц.
почитай что такое attention,  двоечник. которве лежат в основе трансформера.
И какой у них недостаток
А потом почему мамба их решает. А потом какой у нее недостаток. Точнее у алгоритма, который онжит в основе. Даже не напишу название - сам ищи.
Вот когда ответишь на все эти вопросы - приходи спорить и упрекать.
ArbNet #:
Короче, занимайся своим делом, а я буду своим заниматься.
Да, вот именно - я занимаюсь делом, а ты фигней страдаешь

ArbNet #:
И при этом у тебя даже мысли не возникает что можно же как то сделать по другому, что матричные вычисления в дробных числах это очень затратно и тд. Соображение напрочь отсутствует, чего такому объяснить то можно. Извини, но это бестолковые занятие, я не смогу объяснить то что просто очевидно, то до чего сам можешь одуматься. Но этого не происходит и объяснения тут никакие не помогут.

Не выпендривайся. А прочитай что я уже писал раньше.  С 23 года работают над новым( условно) алгоритмом Mamba(SSM) которому прочат замену обычному трансформеру. Знаешь отличия? Не знаешь, вот и не трынди. А я знаю. 
И еще знаю, что это работа для команд, исследователей с математическим образованием, с профессорскими степенями, а не кладовщику из техникума и даже не обладателю диплома БГУИР.

Ты уже работаешь в ОпенАИ

Да, есть одиночки-гении, которые работают над этимю Ты - не из их числа. Ты за год даже не научился правильно формулировать проблему. Только после того как я сто раз написал про матричные вычисления ты стал писать про них. Но я в тупик могу загнать парой вопросов, на спор. 

Ты вот даже не удосужился узнать различия, я прожед чем спорить - хотя бы погуглил нормально.

Перестань страдать фигней, давай обсуждать реальные вещи а не добывать в очрередной раз кремний из песка чтобы сложить 2+2

Artisan #:
«Марш энтузиастов» из
кинофильма «Светлый путь».
Может уже таблетки какие попей? булет проще держаться в контексте темы? Топик перепутал
ArbNet #:

Я ранее уже говорил, что хочу на Rust написать свои ЯП, с модулями: базы данных, веб-сервер, нейросетью и др. для микросервисной системы.

Да причем тут то что ты хочешь? Мв говорми о конкретных вещах - фреймворках. нейросетях, а не о твоих планах. Ты приходишь с неконструктивной критикой но когда тебе задаешь конкретные вопросы - ты в кусты и начинаешь чем то там прикрываться. Какая тебе разница на старте - пойму ли я или нет - ты сначал озвучь
"Вот я изучил нейросети - вот этот момент при создании неправильный - я знаю как его улучшить - надо сделать так и так..."  Это будет нормальная беседа. А не твои выдумки. Ты вот не смог понять чем отличается оллама от нейросети, начал писать о ее недостатках вместо того чтоб говорить о деле, пока тебе не сказали - ты даже не знал про ollama.cpp. Это не стыдно - не знать что-то, как ты не понимаешь. 
учеба это в первую очередь призанание факта что ты что-то не понимаешь. 
ArbNet #:

Фреймворк - это инструмент облегчающий и ускоряющий работу, в нём нет полностью готовых рабочих проектов.

А CMS - это уже готовый проект(блог, магазин и тд.) который при необходимости можно менять, что-то добавлять, удалять уже готовые компоненты. Ну и контентом наполнить.

ЗЫ. Мне ли тебе объяснять..

Видишь - ты даже не можешь сформулировать правильно что такое ФФ и CMS!
CMS - это не готовый проект! Это тоже инструмент для создания блога, магазина  итд. В отличие от фреймворка  он уже содержит какие-то готовые модули, упрошающие  создание. Например админскую часть. Но в нем есть вшитые ограничения. Например Вордпресс успользует уже структурированную базу данных, которую не очень удобно расширять - там это костыли в виде метаданных.  на основе готовых таблиц
Фреймворк же тебе дает свободу использовать базу как угодно, просто представляет(или нет) какую-то ОРМ. А ты пытаешься зашить создание таблиц в ХТМЛ.
Точно так же ларавел тебя не ограничивает в выюоре фронтенда - он отделен. А ты впился в свой XML. 
Разделяй темы о которых мы говорим и не мешай все до кучи
Сьехали на нейросети - так и будь в теме без туманных намеков.

ArbNet #:
Знаю и побольше твоего.
Ты ни в одном ответе этого не доказал. давай уже начнем обзаться конструктивно.
ArbNet #:
Даже если я буду тебе объяснять что и как хочу написать на Rust,

Пойму - Rust  такой же ЯП как и остальные - нет никакой сложности прочитаить код для меня. 
все что ты пишешь - отговорки и непонятно зачем. Ты вместо того чтобы вместе учиться постоянно срываешься на оскорбления и нападки  - зачем? чего ты этим добиваешься. Ты можещ спросить у друших тут как выглядят твои ответы. Для меня - это общение с обиженным на весь мир школьником.  Прекращай
Никто тут не меряется крутостью. Есть знания - делись, указывай на ошибки. А не бросайся словами, а то получается как почтальон печкин с посылкой. Несерьезно для взрослого человека

ArbNet #:
Нет, я же сказал, мне не интересно на готовом фреймворке и Python
ты знаешь вообще как устроен ЛЛМ? ты понимаешь о чем речь? 
Ты понимаешь что все это построено на работе с матрицами? Что ты хочешь переизобрести - можешь конкретно обяснить. Столько страниц, но ты никак не выразишь свою мысль. Ты не хочешь делать свой фремфорк, я понимаю - он уже на годы отстал от существующиз и там проще все выкинуть и начать заново.
Ты сам говорил про модели нейросетей - я предложил тебе вариант. Ты опять в отговорки.
никаких проблем - ты можешь в том же репо создать аналог на Расте и можно будет сравнить производительность. Это даже интересно.  Только не прикрывацся тут идеями про инновации - поверь - нчего гового ты не напишешь. Я  - тоже. А так - хоть натренируемся, что-то новое узнаем. Давай?

Естати у меня все еще идет тренировка модели. Комп нагрелся и гудит - вот что значит реальная нагрузка. Запустил тренинг на метале маковском. Пайтон отожрал 97% GPU! 
inkubus #:
это районный ИИ, по другому не генерит ответы
упал под стол, это лучший  ответ за сегодня. теперь мы знаем как к нему обращаться))) 
Всего: 8138