Sly32

Рейтинг
389
Регистрация
29.03.2012
Должность
Software engineer
Задумал внести Несколько изменений в сервис, в итоге добавились 8 пунктов. Серьезные изменения, какие-то связаны с ИИ, какие то просто дополнительный функционал для репетиторов. В итоге написал задание на 1199 строк, с детальным описанием каждого пункта, ограничения, инструменты....
Изначально думал запускать поэтапно, но сейчас есть желание рискнуть - включить режим автопилота и отправить на выполнение весь комплекс. Что думаете - прокатит? Порядка 10 новых таблиц, роутеры, менеджеры, фронтенд.. 
руки чешутся проверить автономию. Особо ничем не рискую кроме токенов и потерянного времени - всегда можно откатить версию. Такого рода задачи еще не запускал. 
ilyamaster #:
да, рецепт прост - берем сливки 10-*12 490 мл. процентов,  берем сгущенку 1% 200 гр, клубника - шоколад - по желанию загуститель (порошек). Имеем - 690 кг мороженного - себестоимость сливки 74р+50р сгущенка+(тут купили за 100р, на порцию 20р.(хватит на 10 порций)-- выход 690 гр.  морженки - 160р. Хорошего -  натурального, относительно.
Нашел чем напугать картошко-бизнесмена)))

А мне вот нравится итальянское мороженое - оно не такое жирное как наше и освежает хорошо. Но именно настоящее, не  набор химикатов-красителей со льдом.
ArbNet #:

Завязывай уже фигнёй страдать, это всё ерунда. Хороших локальных решений нет, тем более с маленьким ОЗУ.

ЗЫ. По мне  лучше свой движок написать для нейросети для локалки.

😂 Ваш совет очень ценный для нас. "Я тебя услышал"(с) Первая ракетка (посмотри эпизод 5 чтобы понять)

Но, давай поговорим аргументированно.
Зачем мне локальный LLM? Главная цель - удешевление. Ты конечно же до сих пор не посмотрел мой проект, поэтому вкратце. Есть ИИ урок, который ведет ИИ учитель. Сам урок сгенерирован на мощных моделях, учитывает нюансы темы,  содержит квизы и дополнительную информацию. Он очень круто работает на Клод и ОпенАИ, неплохо на Дипсик, но в любом случае это токены, за которые надо платить. Я хочу сделать пробные уроки, бесплатные для пользователя. Вот тут и вступает в дело локальный ЛЛМ.  По большому счету мне не нужна мощная модель, потому что нужные данные по уроку уже есть, база знаний лежит в РАГ. Мне достаточно простого трансформера, который в приницпе работает как оркестратор. Причем это сейчас в бета-тестировании такие ограничения, чтобы не платить много. У меня и так на сервер уходит уже более 50 баксов в месяц. Плюс оплата токенов, но пока что там копейки.

Теперь поговорим про 

ArbNet #:
лучше свой движок написать для нейросети для локалки.

Давай аргументированно в этот раз. Чем это лучше? что это тебе даст? Какие недостатки в тех, что существуют ты увидел и знаешь что улучшить? Я вот не копал так далеко - я даже не знаю как это устроено. Знаю что llama.cpp написана на плюсах человеком, который перед этим написал whisper.cpp - крутую штуку для распознавания голоса, суперски работает локально, я на ее основе написал interview-cheater - локальную приблуду, которая работает в фоне во время интервью, слущает вопросы и выдает ответы) Она тоже была на локальных моделях в llama.cpp

Оллама написана на Go, поддерживается группой разрабов сейчас, изначально стартовала с бюджетом в $125 тыс.
Ты реально считаешь что сделаешь что-то лучше? Без обид.

Но! Это очень хорошая практика - тут не спорю. Только прежде чем писать самому - нужно досконально разобраться в том что есть. Так что мой совет - сначала расковыряй существующие.
Например - как ты будешь работать с CPU/GPU? Оллама, например умеет работать с любыми видами графических чипов, если включить  поддержку СUDA -  она на моем маке в три раза быстрее работает на М4. Специально смотрел разницу. Запущенная в докере  и локально.
Ты хорошо понимаешь разницу между  GGML и GGUF? Для Apple Silicon инференс ускоряется через MLX - напишеь под него ускоритель сам?

Поэтому мне кажется интереснее решать задачи попроще, но где будет виден результат.
Сразу говорю - не указываю тебе, это просто мое мнение

Александр Воробьев #:
Ну не "посоветую".. скорее просто спрошу: а почему квены не 3ей версии?
Это то, что посоветовал мне ИИ исходя из текущей конфигрурации и быстродействия. И заточенные под Олламу. Но буду рад предложениям. Рассматриваю модели до 4Гигов размером и скорость генерации должна быть от 20 токенов в секунду Если знаешь лучшие модели, доступные в Оллама - предлагай.
Моделька крутится в контейнере с 4 гигами оперативы, максимум 5 и 2-4CPU(core)

Встретил тут слезы, что мол  нет денег чтоб зайти и протестировать мой сервис. Это при том что каждый зареганный получает бонус, достаточный чтобы поиграться с хорошими моделями, которые напрямую из РФ недоступны.
Решил пойти навстречу, тряхнуть стариной и запилитьс свой сервис с моедлями, которце будут крутиться прямо в облаке моем и будут практически даром. В итоге добавил контецнер с ollama,  он полностью независим, никуда не ходит, работает для посетителей. Вопрос - какие модели до 4Гигов лучше всего работают? 
чтоб не получать примерно такой урок 😂

рассматриваю такие

| Модель | Размер | Скорость (CPU) | Описание | Pull |
|---|---|---|---|---|
| `gemma3:latest` | 3.3 GB | ~5–10 tok/s | ✅ **уже установлена**. Хороший диалог, приемлемая скорость | — |
| `qwen2.5:1.5b` | 986 MB | ~18–28 tok/s | Qwen 1.5B — лучше чем 0.5b, почти такой же быстрый | `ollama pull qwen2.5:1.5b` |
| `qwen2.5:3b` | 1.9 GB | ~10–18 tok/s | Хороший баланс скорость/качество | `ollama pull qwen2.5:3b` |
| `llama3.2:1b` | 1.3 GB | ~20–30 tok/s | Meta Llama 3.2 1B — быстро, хорошо на инструкциях | `ollama pull llama3.2:1b` |
| `llama3.2:3b` | 2.0 GB | ~10–16 tok/s | Meta Llama 3.2 3B — оптимальный выбор для диалога | `ollama pull llama3.2:3b` |
| `mistral:7b-instruct-q4` | 4.1 GB | ~4–8 tok/s | Mistral 7B quantized — высокое качество | `ollama pull mistral:7b-instruct-q4_0` |

### Tier 3 — Качественные (7+ GB) ⚡ (медленно без GPU)

| Модель | Размер | Скорость (CPU) | Описание |
|---|---|---|---|
| `llama3.1:8b` | 4.9 GB | ~2–5 tok/s | Хорошее качество, но тяжело на CPU |
| `mistral:latest` | 4.1 GB | ~3–6 tok/s | Отличный диалог, но медленно |
| `deepseek-r1:7b` | 4.7 GB | ~2–4 tok/s | Reasoning модель, медленная |


Что еще посоветуете?
Все-таки пока что Github Copilot остается в моих фаворитах. Оценил возможности handoff  агентов. Увепен что все о гих знают поэтому кратко - ёто дополнительный агент с узкикми скилами, который активируется под определенные задачи. То есть не нужно писать огромный базовый промпт с перечислением всего что только вспомнишь
Просто в главного агента добавляешь метку
handoffs:
- label: "Handoff to AWS Infra Builder"
agent: AWS Infra Builder
prompt: "Continue this task as AWS Infra Builder. Focus on Terraform/AWS deployment implementation, validation, rollout steps, and rollback guidance based on the current conversation context."
- label: "Handoff to GCP Architect"
agent: gcp-architect
prompt: "Continue this task as GCP Architect. Focus on GCP infrastructure design, cost estimates, Terraform implementation, and deployment plan based on the current conversation context."

А у же в профильном агенте расписываешь все, что от него требуется.
Чем это отличается от skills? Обязательностью выполнения. Скилы агент может и проигнорить. Субагента - почти никогда.
При этом промпт и короче и хорошо кэшируется.

Проверил сегодня на кейсе с дебагом сервера - реально работает. Он теперь понимает куда деплой и не лезет править все подряд. У меня разнесены скрипты под гугл и амазон и он теперь хорошо понимает, что я от него хочу. Раньше он мог нацти аналогию в амазоне и уверенно его поломать. Теперь же четко забирает нужное.

В общем, мне понравилось.  Надо доделать такое для клода. у него тоже есть субагенты но вроде как правила пишутся немного не так.

LikeAVirgin #:

Можно. Нужно только правильные ниши найти, где очень много чайников, небольшой бюджет и большой спрос. ;)

Ну и это не единственный проект и метод заработка. Жить только на это было бы не очень комфортно. Здесь ловлю только через SEO и низкочастотники. Расходов на рекламу нет. Если делать рекламу, то, наверное, можно было бы только на этом выезжать. Но я не складываю яйца в одну корзину.

Круто 👍 Интересно было узнать, спасибо
LikeAVirgin #:

Если это про меня, то я конкретно написала файлы .wpress. Продаю готовые сборки для узких ниш. Все нужные плагины, настроенные под ключ, все страницы с контентом, который нужно под себя подогнать плюс полная инструкция от импорта до работы с сайтом.

Понятно, спасибо. Неужели на этом можно заработать в наше время? Это чисто так, мое удивление, но я сильно в другой нише
Vladimir SEO #:
Индус подливает масла в огонь
Так об этом уже давно идет речь. Но вот не уверен что этим гугл не выстрелит себе в ногу в итоге...
ArbNet #:
Спасибо, за идею, может надумаю.

Это примерная схема, как работает

Можно взять и стандарт - MCP,  но наверное это избыточно. Достаточно написать свои инструменты, просто грамотно дать им премишены, что агент твой не снес весь репо и не сказал "Извините" 😂 На Пайтон это довольно просто реализуется, но не думаю что на Раст сильно сложнее будет. 
Я когда-то баловался таким, даже где-то валяется готовый код агента, если нужно- могу показать. Но он сильно уступает по качеству хорошим моделям, чисто для изучения и понимания как это все работает писал...

Всего: 8123