Sly32

Рейтинг
389
Регистрация
29.03.2012
Должность
Software engineer
LikeAVirgin #:
А для чего он нужен? 😀 Инфы везде хорошей предостаточно, и плохой тоже.
Что бы написать такой урок, нужно время. Я не предоставляю учебные программы, моя цель - сделать сервис, с помощью которого такие программы можно будет довольно легко создавать. Это в приницпе коннект учитель-ученик со всевозможной обвязкой - расписание, тесты, онлайн уроки с ИИ репетитором.

Anthropic recently launched the Claude Certification Program.

Оказывается наша контора является соучредителем этой программы с  Антропиком, благодаря этому  нам дали свободный доступ к курсам и сертификации. Прошел пару курсов уже. Не скажу что прям пока узнал много нового, но есть и интересные вещи, касающиеся именно работы с Claude.   В частности толковое обьяснение проектов, артифактов и коннекторов, как настраивать и пользоваться, доступные фреймворки и коворкинги. В принципе все по документации, но структурировано и для базы очень хорошо. 

LikeAVirgin #:
а не мог бы твой ИИ тутор научить меня создавать RAG, чтобы с самого начала правильно, максимально на автомате, но чисто.
Для этого не нужен именно мой тьютор, инфы хорошей по РАГ предостаточно. 
LikeAVirgin #:
Дальше выходило обновление какой-то библиотеки. Его нужно было забить в RAG, не проблема. А дальше нужно было перегенировать весь статичный обучающий контент, чтобы это изменение учесть. Тут у меня вынесло мозг и закончились токены.

Мне кажется тут у тебя не очень верный подход. Для того и нужны эмбеддинги чтобы каждый раз не перегенерить всю статику, да и даже при использовании OpenAI embeddings  там не очень большой расход. Впрочем можно использовать и другие либы, бесплатные. Я сначала вообще с HF  работал. 

Тут же весь смысл в том чтобы  правильно подбирать документы. Можно усилить - добавить BM25. А потом реранкинг

LikeAVirgin #:
- как накормить RAF существующим хаосом

- парсинг информации с нужных тебе источников

- сканирование и распознавание, в том числе и заметок на полях

- загрузка текстов напрямую

Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу

LikeAVirgin #:
- как поддерживать его в актуальном состоянии

Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке

LikeAVirgin #:
- как делать ревью сгенерированного контента, не читая каждой строчки

как я уже писал - в планах использовать advanced RAG. В принципе использование строится на эмбеддингах, которые высчитываются в момент загрузки конента. Для любого ответа высчитыввется ranking score. На основании этого происходит реранкинг  и выдается самый релевантеый вариант. Кстати его тоже можно сохранять в бд и в дальнейгем уже будет меньше блужданий и четче конкретика. 
Это очень-очень приблизительное описание работы. Но по крайней мере по темам, которые я хорошо знаю, я уже, даже без aRAG  вижу приличные результаты. 

LikeAVirgin #:
Вот если это когда-нибудь будет, мне будет лично очень интересно.
Как ты это видишь себе?
LikeAVirgin #:

Вот в это все и упирается. Остальное написать/создать/закодить не проблема. Как создать качественный RAG, если информация в принципе на 30% в неструктурированном виде в голове репититора. Как запихать его голову в RAG?

Я понимаю, что это уход от темы. Но лично для меня любое создание контента для обучения на данном этапе упирается в RAG. Все остальное - это код, который пишется в 2-3 дня. Не проблема.

Я же как раз кодер а не контентщик. Мне интересно создать систему, максимально удобную для использования. Как запихать - это тоже работа. Это отдельный функционал системы, позволяющий загружать данные из разных источников. А задача системы - правильно данные систематизировать. 

Ну и я говорил - для меня тут нет, по крайней мере пока, коммерческой составляющей. Просто развлечение.
Я в свое время занимался обучающими системами. До сих пор ей пользуется западный автоконцерн для обучения своих сотрудников. Поэтому примерно понимаю недостатки, вот и решил поиграться с умными системами.

LikeAVirgin #:
Вопросы интегрированы в сам урок?
Урок состоит из тем, которые будут разобраны во впремя урока. Для каждой темы можно прописать вопросы, можно добавить квиз
LikeAVirgin #:
Т. е. урок построен на основе объяснение, вопрос, ответ?

да

LikeAVirgin #:
И вопросы-ответы фиксированы. Т. е. никаких новых вопросов ИИ не придумывает?

вопросы генерирует ИИ на основе темы

LikeAVirgin #:
Если оно берется из RAG, то все туда и упирается. Создать качественный RAG (из чего?), и потом за ним ухаживать (расходы на человеческий ревью) и жить с тем, что даже с RAG ИИ может ошибаться....

Естественно нужен качественный для уменьшения галлюцинаций. Ну и я использую advanced RAG, который позволяет практически полностью исключить галлюцинации за счет реранкинга и повторных цепочек вопрос-ответ

LikeAVirgin #:
один раз пустить что-то на самотек или положиться на самобочение. 

Это не планируется как полностью самообучение. Это как дополнение к урокам репетитора. 

LikeAVirgin #:
LifterLMS
Это просто система создания онлайн обучения. ИИ-репетитор немного иной подход. Там нет фиксированных вопросов, есть только темы, которые будут разобраны в течение урока. Они зависят от твоих ответов. Если ты отвечаешь лучше - дальше может быть усложнение, хуже - упрощение.  Есть план урока. Но нет жестко фикисрованных вопросов - они каждый раз генерируются в процессе диалога.

ИИ репетитор посложнее. Но принцип тот же. Ты выбираешь тему, ИИ генерирует ее, потом правишь. Настраиваешь темы урока, продолжительность. Можно подключить квиз и тодга в фазе проверки ИИ не будет генерировать вопросы а будет брать их из квиза, причем в произвольном порядке - каждый раз - разные.

Сам ИИ урок проходит без участия живого репетитора. По итогам делается саммари. Сам урок записывается и на основании ответов ученика делается БД с его ответами, которые будуи учитываться при повторном прохождении а так же для отслеживания прогресса

Вот вкратце так

LikeAVirgin #:

Я не понимаю, откуда там берется информация для обучения? Она генерируется  самим ИИ on-fly и складывается в RAG? И для каждого ученика тогда свой RAG получается что-ли? Дополнительные темы для обучения предлагает ИИ? Там где-то есть вообще контроль человеческий или это полностью генерация? Квизы опять же on-the-fly создаются? И что с галлюцинациями, на каком этапе живой кожанный репититор там вообще в концепте существует? Или не существует.

Начну с квизов. Там две опции - создать руками или с помощью ии. Можно выгрузить из json файла определенного формата. Ты создаешь новый квиз и у тебя есть возможность сгенерировать его с помощью ИИ

При это предварительно ты можешь создать свою базу для RAG. загрузить свои вопросы с ответами. Есть возможность загнать просто картинку и система распознает ее и положит чанки в базу. Перед генерацией системпа проверит наличие  базы по даннной теме и будет использовать ее при генерации тестов. Когда тест сформирован - ты можешь уже править его ручками, если ИИ ошибся(а такое бывает) - исправляешь вопросы и ответы, добавляешь картинки(в преспективе их тоже можно будет сгенерить)

Для тестов выставляется уровень сложности а также можно включить анти-чит режим -  система будет отслеживать попытки погуглить в соседнем окне.
Сам тест уже работает без ИИ, только для саммари будет подключен для анализа ответов и выдачи рекомендаций.

Всего: 8123