Завязывай уже фигнёй страдать, это всё ерунда. Хороших локальных решений нет, тем более с маленьким ОЗУ.
ЗЫ. По мне лучше свой движок написать для нейросети для локалки.
😂 Ваш совет очень ценный для нас. "Я тебя услышал"(с) Первая ракетка (посмотри эпизод 5 чтобы понять)
Но, давай поговорим аргументированно.Зачем мне локальный LLM? Главная цель - удешевление. Ты конечно же до сих пор не посмотрел мой проект, поэтому вкратце. Есть ИИ урок, который ведет ИИ учитель. Сам урок сгенерирован на мощных моделях, учитывает нюансы темы, содержит квизы и дополнительную информацию. Он очень круто работает на Клод и ОпенАИ, неплохо на Дипсик, но в любом случае это токены, за которые надо платить. Я хочу сделать пробные уроки, бесплатные для пользователя. Вот тут и вступает в дело локальный ЛЛМ. По большому счету мне не нужна мощная модель, потому что нужные данные по уроку уже есть, база знаний лежит в РАГ. Мне достаточно простого трансформера, который в приницпе работает как оркестратор. Причем это сейчас в бета-тестировании такие ограничения, чтобы не платить много. У меня и так на сервер уходит уже более 50 баксов в месяц. Плюс оплата токенов, но пока что там копейки.Теперь поговорим про
Давай аргументированно в этот раз. Чем это лучше? что это тебе даст? Какие недостатки в тех, что существуют ты увидел и знаешь что улучшить? Я вот не копал так далеко - я даже не знаю как это устроено. Знаю что llama.cpp написана на плюсах человеком, который перед этим написал whisper.cpp - крутую штуку для распознавания голоса, суперски работает локально, я на ее основе написал interview-cheater - локальную приблуду, которая работает в фоне во время интервью, слущает вопросы и выдает ответы) Она тоже была на локальных моделях в llama.cpp
Оллама написана на Go, поддерживается группой разрабов сейчас, изначально стартовала с бюджетом в $125 тыс.Ты реально считаешь что сделаешь что-то лучше? Без обид.
Но! Это очень хорошая практика - тут не спорю. Только прежде чем писать самому - нужно досконально разобраться в том что есть. Так что мой совет - сначала расковыряй существующие.Например - как ты будешь работать с CPU/GPU? Оллама, например умеет работать с любыми видами графических чипов, если включить поддержку СUDA - она на моем маке в три раза быстрее работает на М4. Специально смотрел разницу. Запущенная в докере и локально.Ты хорошо понимаешь разницу между GGML и GGUF? Для Apple Silicon инференс ускоряется через MLX - напишеь под него ускоритель сам?
Поэтому мне кажется интереснее решать задачи попроще, но где будет виден результат.Сразу говорю - не указываю тебе, это просто мое мнение
Встретил тут слезы, что мол нет денег чтоб зайти и протестировать мой сервис. Это при том что каждый зареганный получает бонус, достаточный чтобы поиграться с хорошими моделями, которые напрямую из РФ недоступны.Решил пойти навстречу, тряхнуть стариной и запилитьс свой сервис с моедлями, которце будут крутиться прямо в облаке моем и будут практически даром. В итоге добавил контецнер с ollama, он полностью независим, никуда не ходит, работает для посетителей. Вопрос - какие модели до 4Гигов лучше всего работают? чтоб не получать примерно такой урок 😂
рассматриваю такие
Можно. Нужно только правильные ниши найти, где очень много чайников, небольшой бюджет и большой спрос. ;)
Ну и это не единственный проект и метод заработка. Жить только на это было бы не очень комфортно. Здесь ловлю только через SEO и низкочастотники. Расходов на рекламу нет. Если делать рекламу, то, наверное, можно было бы только на этом выезжать. Но я не складываю яйца в одну корзину.
Если это про меня, то я конкретно написала файлы .wpress. Продаю готовые сборки для узких ниш. Все нужные плагины, настроенные под ключ, все страницы с контентом, который нужно под себя подогнать плюс полная инструкция от импорта до работы с сайтом.
Это примерная схема, как работает
Можно взять и стандарт - MCP, но наверное это избыточно. Достаточно написать свои инструменты, просто грамотно дать им премишены, что агент твой не снес весь репо и не сказал "Извините" 😂 На Пайтон это довольно просто реализуется, но не думаю что на Раст сильно сложнее будет. Я когда-то баловался таким, даже где-то валяется готовый код агента, если нужно- могу показать. Но он сильно уступает по качеству хорошим моделям, чисто для изучения и понимания как это все работает писал...