Челендж на 2026

Сергей про е-ком
На сайте с 11.05.2008
Offline
358
#221
LikeAVirgin #:

Я не понимаю, откуда там берется информация для обучения? Она генерируется  самим ИИ on-fly и складывается в RAG? И для каждого ученика тогда свой RAG получается что-ли? Дополнительные темы для обучения предлагает ИИ? Там где-то есть вообще контроль человеческий или это полностью генерация? Квизы опять же on-the-fly создаются? И что с галлюцинациями, на каком этапе живой кожанный репититор там вообще в концепте существует? Хотя бы для review. Или не существует в принципе.

Я тебе отвечу, как я делал. ) У меня быда задача - научиться делать конкретную вещь на Python. В итоге разбил систему на ноутбуки. 1 - фунламентальный, 2 - интерактивный. Проблемы выпали моментально. Во-первых, тебе нужна максимально подробная программа курса. С софт и хард. С ДЗ. Проверки ИИ как раз круто делает. Во-вторых всё, что не лежит в ограничениях, топит всё волшебство проекта. На выходе - хочешь нормальный курс - сам должен быть спецом и задавать инстурменты и последовательности. На отвали тебе бот и сделает на отвали, условно, предложив вместо aiogram какой-нибудь необновляемый мусор. 

Но сам ИИ учитель - штука бесспорно интересная. У меня нет навыков LM, Слай в этом гениален и опытен, поэтому будет интересно понаблюдать за его продуктом. Надеюсь, хотя бы его он выкатит.

Крутейшая тема и конструктор на WP - https://shop.greenshiftwp.com/?from=3338
LA
На сайте с 05.09.2011
Online
145
#222
Sly32 #:
Как ты это видишь себе?
Я вижу шанхай в виде документаций, публичных и закрытых, заметки на полях, сообщения об обновлениях/изменениях, 100500 источников. 
Я не о Python basics, для этого есть достаточно ресурсов. Я о том, что в принципе не существует или существует, но очень быстро устаревает.
Тройная боль:
- как накормить RAF существующим хаосом
- как поддерживать его в актуальном состоянии
- как делать ревью сгенерированного контента, не читая каждой строчки


LA
На сайте с 05.09.2011
Online
145
#223
Сергей про е-ком #:
Я тебе отвечу, как я делал. ) У меня быда задача - научиться делать конкретную вещь на Python.
А это другая целевая группа. Тут, ты хотел научиться. А я смотрю с другой стороны, я хочу научить. ;)
Я знаю, как правильно, я делаю ручками. Я вижу галюцинации и понимаю, что для обучения других (не меня) я не могу это использовать без четких рамок. Может быть RAG здесь даже не выход, это я в него уперлась, потому что пока другого выхода не вижу. Короче, как ограничить галюцинации до минимума? Потому что все эти темы, объяснения, квизы заканчиваются там, где начинается смесь документаций (старые/новые версии), переводы интерфейсов на другой язык, или просто отсуствие какой-то информации в открытом доступе, где ИИ начинает важно выдумать несуществующие функции, меню, кнопки.
S3
На сайте с 29.03.2012
Offline
374
#224
LikeAVirgin #:
- как накормить RAF существующим хаосом

- парсинг информации с нужных тебе источников

- сканирование и распознавание, в том числе и заметок на полях

- загрузка текстов напрямую

Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу

LikeAVirgin #:
- как поддерживать его в актуальном состоянии

Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке

LikeAVirgin #:
- как делать ревью сгенерированного контента, не читая каждой строчки

как я уже писал - в планах использовать advanced RAG. В принципе использование строится на эмбеддингах, которые высчитываются в момент загрузки конента. Для любого ответа высчитыввется ranking score. На основании этого происходит реранкинг  и выдается самый релевантеый вариант. Кстати его тоже можно сохранять в бд и в дальнейгем уже будет меньше блужданий и четче конкретика. 
Это очень-очень приблизительное описание работы. Но по крайней мере по темам, которые я хорошо знаю, я уже, даже без aRAG  вижу приличные результаты. 

Сергей про е-ком
На сайте с 11.05.2008
Offline
358
#225
LikeAVirgin #:
Я знаю, как правильно, я делаю ручками. Я вижу галюцинации и понимаю, что для обучения других (не меня) я не могу это использовать без четких рамок.

Да суть как раз примерно такая. У меня и была мысль сделать классический курс, спарсив актуальную повестку  + умный учитель, которая раскроет тебе всё про те темы, которые тебе нужны или могут быть нужны в прикладной задаче: ну, например инженер данных + python + математика в прикладной целе - сделать кластеризатор семантики. Т.е. логика бота в моём случае была не в том, чтобы давать фундамент, а в том, чтобы определить варианты решения задачи и предметно с ДЗ и нужными модулями закрыть потребность человека. Подсказав, направив, научив, проверив. 

Но, увы. Говноучилку можно хоть на gem-боте с Notebook LM сделать. 

LA
На сайте с 05.09.2011
Online
145
#226
Sly32 #:

- парсинг информации с нужных тебе источников

- сканирование и распознавание, в том числе и заметок на полях

- загрузка текстов напрямую

Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу

Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке


Но вот это уже как бы пройденный этап. Пробовала парсить, чанки - ембединги, само собой, складывала в pgvector. То, что документаций на 100% актуальных и полных не бывает - это факт. Т. е. где-то устарело, где-то забыли добавить. К тому же там еще были намешаны описания дополнительных опциальных модулей. У обучающего прав на его установку не было. Поэтому в ходе сбора нужно было убирать всю информацию по допмодулям. Но чисто не получилось. Оставались ошметки. Додумалась еще пропарсить GUI через playwright, чтобы было реально видно, что видит пользователь в натуре. Дальше генерировала на основе обучающий контент. Естественно в GUI были незадокументированные фичи. Возникал вопрос по Чернышевскому "Что делать?":
1. Дать ИИ погадать в контексте RAG, что это могло быть.
2. Ограничить его, чтобы честно выдавал "я, хз, что это такое"
Дальше выходило обновление какой-то библиотеки. Его нужно было забить в RAG, не проблема. А дальше нужно было перегенировать весь статичный обучающий контент, чтобы это изменение учесть. Тут у меня вынесло мозг и закончились токены.

Результат: весь эксперимент был выброшен на помойку.

И вот пока я это все писала, я подумала, sly, а не мог бы твой ИИ тутор научить меня создавать RAG, чтобы с самого начала правильно, максимально на автомате, но чисто. И при этом не пожирая 10000000 токенов для изменения двух строчек? Может?

S3
На сайте с 29.03.2012
Offline
374
#227
LikeAVirgin #:
а не мог бы твой ИИ тутор научить меня создавать RAG, чтобы с самого начала правильно, максимально на автомате, но чисто.
Для этого не нужен именно мой тьютор, инфы хорошей по РАГ предостаточно. 
LikeAVirgin #:
Дальше выходило обновление какой-то библиотеки. Его нужно было забить в RAG, не проблема. А дальше нужно было перегенировать весь статичный обучающий контент, чтобы это изменение учесть. Тут у меня вынесло мозг и закончились токены.

Мне кажется тут у тебя не очень верный подход. Для того и нужны эмбеддинги чтобы каждый раз не перегенерить всю статику, да и даже при использовании OpenAI embeddings  там не очень большой расход. Впрочем можно использовать и другие либы, бесплатные. Я сначала вообще с HF  работал. 

Тут же весь смысл в том чтобы  правильно подбирать документы. Можно усилить - добавить BM25. А потом реранкинг

Сергей про е-ком
На сайте с 11.05.2008
Offline
358
#228
Когда тест-то будет? Готов покрутить. )
LA
На сайте с 05.09.2011
Online
145
#229
Sly32 #:
Для этого не нужен именно мой тьютор, инфы хорошей по РАГ предостаточно. 
А для чего он нужен? 😀 Инфы везде хорошей предостаточно, и плохой тоже. Пока отсортируешь мух от котлет, инфа уже устареет и время улетит. Поэтому нужны тьюторы, чтобы актуально и правильно. 😊
S3
На сайте с 29.03.2012
Offline
374
#230
LikeAVirgin #:
А для чего он нужен? 😀 Инфы везде хорошей предостаточно, и плохой тоже.
Что бы написать такой урок, нужно время. Я не предоставляю учебные программы, моя цель - сделать сервис, с помощью которого такие программы можно будет довольно легко создавать. Это в приницпе коннект учитель-ученик со всевозможной обвязкой - расписание, тесты, онлайн уроки с ИИ репетитором.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий