LikeAVirgin

Рейтинг
145
Регистрация
05.09.2011
Dmitriy_2014 :

Всем привет!

Всегда было интересно узнать, в каких еще странах мира, принято сгонять авто с крайнего левого ряда, едущего соблюдая скоростной режим, мигая ему дальним светом, бибикая, и совершая опасные маневры, типа бычки, или это только у нас в Бутово так :)?

Может в США есть такое, или там в Японии, Германии, Израиле, ОАЕ, Испании, Франции, короче где это еще норма, ну кроме Африки и совсем уж там отсталых типа вьетнама, индии и т.п.
Немцы так делают. Не только в Германии, а и в соседних странах и за это их жутко не любят. 😀
Sly32 #:
Для этого не нужен именно мой тьютор, инфы хорошей по РАГ предостаточно. 
А для чего он нужен? 😀 Инфы везде хорошей предостаточно, и плохой тоже. Пока отсортируешь мух от котлет, инфа уже устареет и время улетит. Поэтому нужны тьюторы, чтобы актуально и правильно. 😊
Sly32 #:

- парсинг информации с нужных тебе источников

- сканирование и распознавание, в том числе и заметок на полях

- загрузка текстов напрямую

Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу

Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке


Но вот это уже как бы пройденный этап. Пробовала парсить, чанки - ембединги, само собой, складывала в pgvector. То, что документаций на 100% актуальных и полных не бывает - это факт. Т. е. где-то устарело, где-то забыли добавить. К тому же там еще были намешаны описания дополнительных опциальных модулей. У обучающего прав на его установку не было. Поэтому в ходе сбора нужно было убирать всю информацию по допмодулям. Но чисто не получилось. Оставались ошметки. Додумалась еще пропарсить GUI через playwright, чтобы было реально видно, что видит пользователь в натуре. Дальше генерировала на основе обучающий контент. Естественно в GUI были незадокументированные фичи. Возникал вопрос по Чернышевскому "Что делать?":
1. Дать ИИ погадать в контексте RAG, что это могло быть.
2. Ограничить его, чтобы честно выдавал "я, хз, что это такое"
Дальше выходило обновление какой-то библиотеки. Его нужно было забить в RAG, не проблема. А дальше нужно было перегенировать весь статичный обучающий контент, чтобы это изменение учесть. Тут у меня вынесло мозг и закончились токены.

Результат: весь эксперимент был выброшен на помойку.

И вот пока я это все писала, я подумала, sly, а не мог бы твой ИИ тутор научить меня создавать RAG, чтобы с самого начала правильно, максимально на автомате, но чисто. И при этом не пожирая 10000000 токенов для изменения двух строчек? Может?

Сергей про е-ком #:
Я тебе отвечу, как я делал. ) У меня быда задача - научиться делать конкретную вещь на Python.
А это другая целевая группа. Тут, ты хотел научиться. А я смотрю с другой стороны, я хочу научить. ;)
Я знаю, как правильно, я делаю ручками. Я вижу галюцинации и понимаю, что для обучения других (не меня) я не могу это использовать без четких рамок. Может быть RAG здесь даже не выход, это я в него уперлась, потому что пока другого выхода не вижу. Короче, как ограничить галюцинации до минимума? Потому что все эти темы, объяснения, квизы заканчиваются там, где начинается смесь документаций (старые/новые версии), переводы интерфейсов на другой язык, или просто отсуствие какой-то информации в открытом доступе, где ИИ начинает важно выдумать несуществующие функции, меню, кнопки.
Sly32 #:
Как ты это видишь себе?
Я вижу шанхай в виде документаций, публичных и закрытых, заметки на полях, сообщения об обновлениях/изменениях, 100500 источников. 
Я не о Python basics, для этого есть достаточно ресурсов. Я о том, что в принципе не существует или существует, но очень быстро устаревает.
Тройная боль:
- как накормить RAF существующим хаосом
- как поддерживать его в актуальном состоянии
- как делать ревью сгенерированного контента, не читая каждой строчки


Sly32 #:
Как запихать - это тоже работа. Это отдельный функционал системы, позволяющий загружать данные из разных источников. А задача системы - правильно данные систематизировать. 
Вот если это когда-нибудь будет, мне будет лично очень интересно. Пока то, что я вижу: такой своеобразный custom ChatGPT с вопрос/ответ системой и неконтролируемыми галлюцинациями. 😏 
Sly32 #:
Ну и я использую advanced RAG, который позволяет практически полностью исключить галлюцинации за счет реранкинга и повторных цепочек вопрос-ответ

Вот в это все и упирается. Остальное написать/создать/закодить не проблема. Как создать качественный RAG, если информация в принципе на 30% в неструктурированном виде в голове репититора. Как запихать его голову в RAG?

Я понимаю, что это уход от темы. Но лично для меня любое создание контента для обучения на данном этапе упирается в RAG. Все остальное - это код, который пишется в 2-3 дня. Не проблема.

Sly32 #:
Это просто система создания онлайн обучения. ИИ-репетитор немного иной подход. Там нет фиксированных вопросов, есть только темы, которые будут разобраны в течение урока. Они зависят от твоих ответов. Если ты отвечаешь лучше - дальше может быть усложнение, хуже - упрощение.  Есть план урока. Но нет жестко фикисрованных вопросов - они каждый раз генерируются в процессе диалога.
Вопросы интегрированы в сам урок? Т. е. урок построен на основе объяснение, вопрос, ответ? И вопросы-ответы фиксированы. Т. е. никаких новых вопросов ИИ не придумывает? А если придумывает, то откуда берется основа для вопросов. И еще раз откуда берется само объяснение темы? Если его генерирует LLM, то это критично из-за галлюцинаций. Если оно берется из RAG, то все туда и упирается. Создать качественный RAG (из чего?), и потом за ним ухаживать (расходы на человеческий ревью) и жить с тем, что даже с RAG ИИ может ошибаться....

Может быть я очень консервативно к этому подхожу, потому что у меня бэкграунд в сфере профобразования и я знаю, чем это может закончиться, если один раз пустить что-то на самотек или положиться на самобочение. 
sly, не критика, просто заметка на полях.

Ничего принципиально нового я там не вижу. Так работают все AI Tools для создания курсов. Все эти системы лихо заваливаются на RAG, т. е. на его качестве. Накормить RAG качественным контентом - это мука. Я не вижу в твоей идеи, где помощь в создании RAG. Откуда первично идет информация для уроков? Это замечательно, что я квизы в JSON могу загружать, но это не ИИ, это просто импорт. Ротация вопросов - это не ИИ, это просто функция. Я не вижу там какой-то динамики или подстраивания под уровень знаний учащегося или индивидуальный путь его обучения. Или я систему не поняла или это просто система создания уроков на основе ИИ. Так может любой чат плюс бесплатный plugin типа LifterLMS plus copy/paste в уроки и ручная проверка контента, так?


Sly32 #:
За выходные сравнил разные модели для работы в пайплайне и для генерации кода. Opus Выигрывает по скорости генерации и по качеству кода. Но если нужна экономия - даже gpt-4.1  вполне справляется и с кодингом и с дебагом. Нормально правит свои косяки, если указать.
Для работы в пайплайне лучше всего Claude Hiaki 4.5  по сочетанию цена -качество. Он отлично держит диалог, не гонит по кругу вопросы а умеет задавать дополнительные вопросы по теме, лучше учитывает предыдущие ответы. Так как система умеет хранить все диалоги, планирую подключить RAG  не только для генерации курсов но и для ведения урока - тогда система будет знать предыдущие ответы ученика и подстраивать материалы под ранее пройденные темы. Получается вполне себе живой диалог. Урок на 40 минут сжигает примерно на 10 центов токенов. То есть вполне доступно получается как дополнительный материал. Ты прошел урок с репетитором и тебе открываются дополнительные темы для  изучения, мне кажется это вполне удобно. Плюс квизы.  Реально можно набивать руку по любым темам. 

Я не понимаю, откуда там берется информация для обучения? Она генерируется  самим ИИ on-fly и складывается в RAG? И для каждого ученика тогда свой RAG получается что-ли? Дополнительные темы для обучения предлагает ИИ? Там где-то есть вообще контроль человеческий или это полностью генерация? Квизы опять же on-the-fly создаются? И что с галлюцинациями, на каком этапе живой кожанный репититор там вообще в концепте существует? Хотя бы для review. Или не существует в принципе.

Всего: 575