Всем привет!
Всегда было интересно узнать, в каких еще странах мира, принято сгонять авто с крайнего левого ряда, едущего соблюдая скоростной режим, мигая ему дальним светом, бибикая, и совершая опасные маневры, типа бычки, или это только у нас в Бутово так :)?
- парсинг информации с нужных тебе источников
- сканирование и распознавание, в том числе и заметок на полях
- загрузка текстов напрямую
Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу
Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке
Но вот это уже как бы пройденный этап. Пробовала парсить, чанки - ембединги, само собой, складывала в pgvector. То, что документаций на 100% актуальных и полных не бывает - это факт. Т. е. где-то устарело, где-то забыли добавить. К тому же там еще были намешаны описания дополнительных опциальных модулей. У обучающего прав на его установку не было. Поэтому в ходе сбора нужно было убирать всю информацию по допмодулям. Но чисто не получилось. Оставались ошметки. Додумалась еще пропарсить GUI через playwright, чтобы было реально видно, что видит пользователь в натуре. Дальше генерировала на основе обучающий контент. Естественно в GUI были незадокументированные фичи. Возникал вопрос по Чернышевскому "Что делать?":1. Дать ИИ погадать в контексте RAG, что это могло быть.2. Ограничить его, чтобы честно выдавал "я, хз, что это такое"Дальше выходило обновление какой-то библиотеки. Его нужно было забить в RAG, не проблема. А дальше нужно было перегенировать весь статичный обучающий контент, чтобы это изменение учесть. Тут у меня вынесло мозг и закончились токены.Результат: весь эксперимент был выброшен на помойку.И вот пока я это все писала, я подумала, sly, а не мог бы твой ИИ тутор научить меня создавать RAG, чтобы с самого начала правильно, максимально на автомате, но чисто. И при этом не пожирая 10000000 токенов для изменения двух строчек? Может?
Вот в это все и упирается. Остальное написать/создать/закодить не проблема. Как создать качественный RAG, если информация в принципе на 30% в неструктурированном виде в голове репититора. Как запихать его голову в RAG?Я понимаю, что это уход от темы. Но лично для меня любое создание контента для обучения на данном этапе упирается в RAG. Все остальное - это код, который пишется в 2-3 дня. Не проблема.
Я не понимаю, откуда там берется информация для обучения? Она генерируется самим ИИ on-fly и складывается в RAG? И для каждого ученика тогда свой RAG получается что-ли? Дополнительные темы для обучения предлагает ИИ? Там где-то есть вообще контроль человеческий или это полностью генерация? Квизы опять же on-the-fly создаются? И что с галлюцинациями, на каком этапе живой кожанный репититор там вообще в концепте существует? Хотя бы для review. Или не существует в принципе.