Челендж на 2026

S3
На сайте с 29.03.2012
Offline
387
#401

В поддержку темы. Почитал плач в теме про ИИ что он ничего не знает, решил усовершенствовать  свой чат. Что добавлено.
- Добавил в RAG  reranker. Теперь если база документов большая, происходит дополнительный реранк ответа для получения наиболее релевантной информации. Имеет смысл только при больших обьемах. А чтоб была понятна эффективность - в ответе есть дебаг информация - показывает какие источники юыли использованы в ответе - просто из ЛЛМ, rag, cosine, hybrid.  То есть можно посмотреть историю и увидеть как менялся ответ в зависимости от алгоритма
Упростил загрузку документов, сделал отдельный раздел в профиле и эта информация  будет подтягиваться во все разделы - от чата до тьютора.  Добавил работу с  пдф-источниками.
базой знаний теперь можно делиться с другмим пользователями.

Теперь тестирую результаты, локально, на сервис еще не выкатывал.
По факту это готовый модуль который позволит тренировать кластеризатор на своих данных. Сам кластеризатор тоже готовится переехать на сервис, но доступ к нему будет ограничен только для тех каьегорий пользоватей которые себе добавят метку "маркетолог"  и сделают запрос на доступ к сервису. В паблик не планирую его открывать. 

S3
На сайте с 29.03.2012
Offline
387
#402

Встретил тут слезы, что мол  нет денег чтоб зайти и протестировать мой сервис. Это при том что каждый зареганный получает бонус, достаточный чтобы поиграться с хорошими моделями, которые напрямую из РФ недоступны.
Решил пойти навстречу, тряхнуть стариной и запилитьс свой сервис с моедлями, которце будут крутиться прямо в облаке моем и будут практически даром. В итоге добавил контецнер с ollama,  он полностью независим, никуда не ходит, работает для посетителей. Вопрос - какие модели до 4Гигов лучше всего работают? 
чтоб не получать примерно такой урок 😂

рассматриваю такие

| Модель | Размер | Скорость (CPU) | Описание | Pull |
|---|---|---|---|---|
| `gemma3:latest` | 3.3 GB | ~5–10 tok/s | ✅ **уже установлена**. Хороший диалог, приемлемая скорость | — |
| `qwen2.5:1.5b` | 986 MB | ~18–28 tok/s | Qwen 1.5B — лучше чем 0.5b, почти такой же быстрый | `ollama pull qwen2.5:1.5b` |
| `qwen2.5:3b` | 1.9 GB | ~10–18 tok/s | Хороший баланс скорость/качество | `ollama pull qwen2.5:3b` |
| `llama3.2:1b` | 1.3 GB | ~20–30 tok/s | Meta Llama 3.2 1B — быстро, хорошо на инструкциях | `ollama pull llama3.2:1b` |
| `llama3.2:3b` | 2.0 GB | ~10–16 tok/s | Meta Llama 3.2 3B — оптимальный выбор для диалога | `ollama pull llama3.2:3b` |
| `mistral:7b-instruct-q4` | 4.1 GB | ~4–8 tok/s | Mistral 7B quantized — высокое качество | `ollama pull mistral:7b-instruct-q4_0` |

### Tier 3 — Качественные (7+ GB) ⚡ (медленно без GPU)

| Модель | Размер | Скорость (CPU) | Описание |
|---|---|---|---|
| `llama3.1:8b` | 4.9 GB | ~2–5 tok/s | Хорошее качество, но тяжело на CPU |
| `mistral:latest` | 4.1 GB | ~3–6 tok/s | Отличный диалог, но медленно |
| `deepseek-r1:7b` | 4.7 GB | ~2–4 tok/s | Reasoning модель, медленная |


Что еще посоветуете?
Александр Воробьев
На сайте с 03.02.2020
Offline
62
Sly32 #:

Что еще посоветуете?

Ну не "посоветую".. скорее просто спрошу: а почему квены не 3ей версии?
S3
На сайте с 29.03.2012
Offline
387
#404
Александр Воробьев #:
Ну не "посоветую".. скорее просто спрошу: а почему квены не 3ей версии?
Это то, что посоветовал мне ИИ исходя из текущей конфигрурации и быстродействия. И заточенные под Олламу. Но буду рад предложениям. Рассматриваю модели до 4Гигов размером и скорость генерации должна быть от 20 токенов в секунду Если знаешь лучшие модели, доступные в Оллама - предлагай.
Моделька крутится в контейнере с 4 гигами оперативы, максимум 5 и 2-4CPU(core)
Александр Воробьев
На сайте с 03.02.2020
Offline
62
Sly32 #:
Если знаешь лучшие модели, доступные в Оллама - предлагай.
Не. Я ж пока ящер. Весь опыт это попытка поднять локально начиная с 32b и в низ... :) Пока я слушатель, а не рекомендователь....
ArbNet
На сайте с 27.10.2019
Offline
151
#406
Sly32 #:
Что еще посоветуете?

Завязывай уже фигнёй страдать, это всё ерунда. Хороших локальных решений нет, тем более с маленьким ОЗУ.

ЗЫ. По мне лучше свой движок написать для нейросети для локалки.

S3
На сайте с 29.03.2012
Offline
387
#407
ArbNet #:

Завязывай уже фигнёй страдать, это всё ерунда. Хороших локальных решений нет, тем более с маленьким ОЗУ.

ЗЫ. По мне  лучше свой движок написать для нейросети для локалки.

😂 Ваш совет очень ценный для нас. "Я тебя услышал"(с) Первая ракетка (посмотри эпизод 5 чтобы понять)

Но, давай поговорим аргументированно.
Зачем мне локальный LLM? Главная цель - удешевление. Ты конечно же до сих пор не посмотрел мой проект, поэтому вкратце. Есть ИИ урок, который ведет ИИ учитель. Сам урок сгенерирован на мощных моделях, учитывает нюансы темы,  содержит квизы и дополнительную информацию. Он очень круто работает на Клод и ОпенАИ, неплохо на Дипсик, но в любом случае это токены, за которые надо платить. Я хочу сделать пробные уроки, бесплатные для пользователя. Вот тут и вступает в дело локальный ЛЛМ.  По большому счету мне не нужна мощная модель, потому что нужные данные по уроку уже есть, база знаний лежит в РАГ. Мне достаточно простого трансформера, который в приницпе работает как оркестратор. Причем это сейчас в бета-тестировании такие ограничения, чтобы не платить много. У меня и так на сервер уходит уже более 50 баксов в месяц. Плюс оплата токенов, но пока что там копейки.

Теперь поговорим про 

ArbNet #:
лучше свой движок написать для нейросети для локалки.

Давай аргументированно в этот раз. Чем это лучше? что это тебе даст? Какие недостатки в тех, что существуют ты увидел и знаешь что улучшить? Я вот не копал так далеко - я даже не знаю как это устроено. Знаю что llama.cpp написана на плюсах человеком, который перед этим написал whisper.cpp - крутую штуку для распознавания голоса, суперски работает локально, я на ее основе написал interview-cheater - локальную приблуду, которая работает в фоне во время интервью, слущает вопросы и выдает ответы) Она тоже была на локальных моделях в llama.cpp

Оллама написана на Go, поддерживается группой разрабов сейчас, изначально стартовала с бюджетом в $125 тыс.
Ты реально считаешь что сделаешь что-то лучше? Без обид.

Но! Это очень хорошая практика - тут не спорю. Только прежде чем писать самому - нужно досконально разобраться в том что есть. Так что мой совет - сначала расковыряй существующие.
Например - как ты будешь работать с CPU/GPU? Оллама, например умеет работать с любыми видами графических чипов, если включить  поддержку СUDA -  она на моем маке в три раза быстрее работает на М4. Специально смотрел разницу. Запущенная в докере  и локально.
Ты хорошо понимаешь разницу между  GGML и GGUF? Для Apple Silicon инференс ускоряется через MLX - напишеь под него ускоритель сам?

Поэтому мне кажется интереснее решать задачи попроще, но где будет виден результат.
Сразу говорю - не указываю тебе, это просто мое мнение

ArbNet
На сайте с 27.10.2019
Offline
151
#408

Хорошо, будет тебе аргументировано.

Sly32 #:
Но, давай поговорим аргументированно.
Зачем мне локальный LLM? Главная цель - удешевление.

Во-первых, насчёт твоей поделки. Ты тут рассказываешь какой ты мега супер программист, а по итогу занимаешься извини за выражение ***нёй, это поделка уровня студента. То что ты тут про удешевление написал, что материал подготовлен в онлайн ИИ, так это опять ерунда полнейшая, в смысле зачем вообще тут ИИ нужен, материал подготовил, составил опросник и оценку результата, это всё и без ИИ можно сделать, он тут не пришей п* рукав. Да и студенты лучше с онлайн ИИ будут заниматься чем с твоей г. поделкой, для начальных классов маленьких детишек ещё можно такое сделать(без ИИ просто как квиз уроки ИМХО).

Во-вторых, по моему мнению для локальных ИИ, слабых компьютеров нет хорошего решения, даже Ollama хоть в принципе и рабочее решение, но и оно имеет массу недостатков, требовательна к ресурсам, модели слишком громоздки, обученные на разных языках, с кучей не нужных данных(когда требуется только под определённое направление) и тд.

ЗЫ. Можешь конечно играться дальше как ты это любишь говорить, но людям эти твои игры нафиг не нужны..

Sly32 #:
Чем это лучше? что это тебе даст? Какие недостатки в тех, что существуют ты увидел и знаешь что улучшить? Я вот не копал так далеко - я даже не знаю как это устроено.

Во-первых, как ты правильно заметил это хорошая практика и саморазвитие. Общаясь с тобой у меня всегда складывается впечатление, что у тебя отсутствует соображение(говоря об этом я не пытаюсь оскорбить, наоборот). Если бы ты умел думать, то у тебя не возникало бы таких вопросов, ты сам бы думал как и я, что можно сделать по другому, у тебя  были бы мысли даже как это можно сделать  и тд. Но ты привык жить по накатанной, зачем думать своей головой если можно посмотреть как делают другие и повторить, ты очень хорошо научился гуглить и цитировать информацию из интернета, теперь ты научился использовать ИИ и всё теперь делаешь с помощью него, но это путь к деградации, а не к саморазвитию.

Во-вторых, про недостатки существующих решений, их масса, все не перечислить, от сказанных мною ранее про требовательные к ресурсам и обученные на многих данных, есть ещё масса недостатков по самой реализации в коде и в принципе. Я уже год как изучаю нейросети, отчасти из-за этого наверно и забросил веб-разработку, купил несколько книг по ИИ, читал статьи, смотрел видео, исходники существующих проектов изучал, сам тестил разные способы и тд. Как минимум базовое понимание как всё устроено и работает у меня имеется, не в плане поверхностного понимания как у тебя, а именно в плане реализации в коде. Конечно есть ещё вопросы как и что, но они в ходе разработки своей нейросети я думаю будут решены.

В третьих, я не собираюсь делать подобие существующих LLM, я лишь хочу сделать мини движок для создания моделей под определённое направление, способных запускаться локально, работать быстро без графического процессора и тд. под микросервисы. Например, для создания уроков для студентов как ты делаешь можно было бы использовать без всяких костылей, для какой-то тех поддержки разных учреждений, для своего фреймворка чтобы люди могли быстро на нём создавать то, что им нужно и тд. и тд.

ЗЫ. Вот по моему чем надо заниматься. А не говно поделки какие-то лепить, к чему ты обычно привык..

S3
На сайте с 29.03.2012
Offline
387
#409
ArbNet #:
Во-первых, насчёт твоей поделки.
Я тебе отвечу в два этапа. Для начала - я никогда не утвреждал, что я 
ArbNet #:
Ты тут рассказываешь какой ты мега супер программист

Да. Мне посчастливилось работать в очень крутых командах, иногда я себя там ощущаю джуном, иногда Лидом, и все это - опыт, которого у тебя нет и не будет. Заметь - я работаю в Айти компании,  "которая входит в престижные списки крупнейших публичных компаний,  S&P 500 и Forbes Global 2000. В ежегодном рейтинге Excellence 1000 компания стабильно находится в топ-5 лучших поставщиков IT-услуг и консалтинга". Пик твоей карьеры - кладовщик, правильно?
Дальше

ArbNet #:
это поделка уровня студента.

Скажи, а ты зашел, посмотрел? Доступ открыт, регистрация занимает 5 минут или меньше, форумчанам я даю бесплатные кредиты, чтобы поработать с моделями -топами. Ты видел, какой там есть функционал? Хорошо студент - а расскажи что ты сделал за этот год, например? Уровня не студента? Вот просто интересно.
Опять же я в сотый раз скажу - все мои проекты изначально не несут в себе коммерческой составляющей Получится - отлично, нет - это просто полигон моих идей. Захотелось повозиться с сео агентов - попробовал, многие наработки оттуда переехали в этот проект. Идея с сайтом для репетиторов витала давно именно из практики - я видел системы обучения, разрабатывал их, знаю недостатки и плюсы. И вот решил попробовать свое.  Про финансы речь пока даже не идет - трачу на все из кармана.
Изначально это были просто онлайн курсы, расписание - место где репетитору и ученику удобно найти друг друга. Но счас уже выросло в систему, построенную на ИИ

ArbNet #:
в смысле зачем вообще тут ИИ нужен,

Если захочешь расскажу. 

ArbNet #:
Да и студенты лучше с онлайн ИИ будут заниматься чем с твоей г. поделкой,

То есть ты попробовал и говоришь так уверенно? Что не так в ней? Я за критику, но конструктивную. Жду фидбэк - можешь только то, что тебе не понравилось. С какой системой ты сравнил?

ArbNet #:
Во-вторых, по моему мнению для локальных ИИ, слабых компьютеров нет хорошего решения, даже Ollama хоть в принципе и рабочее решение, но и оно имеет массу недостатков, требовательна к ресурсам, модели слишком громоздки, обученные на разных языках, с кучей не нужных данных(когда требуется только под определённое направление) и тд.

Давай и тут конструктивнее - что по твоему лишнее в оллама? Я вот не вижу ничего - это обертка над llama.cpp  которая решает несколько проблем, я уже выше писал каких. Но ты проигнорил мой ответ и опять нет конкретики.
Обьясни , при чем тут локальное, если я ясно написал, что это будет крутится в облаке - я могу там поднять что угодно хоть на 64 гига памяти, хоть с GPU
На остальное отвечу позже. 

LA
На сайте с 05.09.2011
Offline
149
#410
Sly, я туда пару раз заглядывала, но так и не поняла о чем. ИИ-тутор. Хорошо. Кто закладывает информацию в РАГ, ИИ или человек? Если человек, то как бы я не буду наполнять чужой RAG для теста. И никто не будет, не в обиду. Сделай сам там RAG по тематике, которая интересна на этом форуме и тебе знакома, тогда можно тестировать, как студент. 
Или я так и не поняла, как это работает. Там все время какая-то Таня или Маша в онлайне висит. Это человек или ИИ? Мне непонятна в принципе роль человека в твоём проекте. Если в качестве студента, то химия меня вообще не интересует. Чего там ещё тестировать можно?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий