Anthropic recently launched the Claude Certification Program.
Оказывается наша контора является соучредителем этой программы с Антропиком, благодаря этому нам дали свободный доступ к курсам и сертификации. Прошел пару курсов уже. Не скажу что прям пока узнал много нового, но есть и интересные вещи, касающиеся именно работы с Claude. В частности толковое обьяснение проектов, артифактов и коннекторов, как настраивать и пользоваться, доступные фреймворки и коворкинги. В принципе все по документации, но структурировано и для базы очень хорошо.
Мне кажется тут у тебя не очень верный подход. Для того и нужны эмбеддинги чтобы каждый раз не перегенерить всю статику, да и даже при использовании OpenAI embeddings там не очень большой расход. Впрочем можно использовать и другие либы, бесплатные. Я сначала вообще с HF работал.
Тут же весь смысл в том чтобы правильно подбирать документы. Можно усилить - добавить BM25. А потом реранкинг
- парсинг информации с нужных тебе источников
- сканирование и распознавание, в том числе и заметок на полях
- загрузка текстов напрямую
Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу
Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке
как я уже писал - в планах использовать advanced RAG. В принципе использование строится на эмбеддингах, которые высчитываются в момент загрузки конента. Для любого ответа высчитыввется ranking score. На основании этого происходит реранкинг и выдается самый релевантеый вариант. Кстати его тоже можно сохранять в бд и в дальнейгем уже будет меньше блужданий и четче конкретика. Это очень-очень приблизительное описание работы. Но по крайней мере по темам, которые я хорошо знаю, я уже, даже без aRAG вижу приличные результаты.
Вот в это все и упирается. Остальное написать/создать/закодить не проблема. Как создать качественный RAG, если информация в принципе на 30% в неструктурированном виде в голове репититора. Как запихать его голову в RAG?Я понимаю, что это уход от темы. Но лично для меня любое создание контента для обучения на данном этапе упирается в RAG. Все остальное - это код, который пишется в 2-3 дня. Не проблема.
Я же как раз кодер а не контентщик. Мне интересно создать систему, максимально удобную для использования. Как запихать - это тоже работа. Это отдельный функционал системы, позволяющий загружать данные из разных источников. А задача системы - правильно данные систематизировать.
Ну и я говорил - для меня тут нет, по крайней мере пока, коммерческой составляющей. Просто развлечение.Я в свое время занимался обучающими системами. До сих пор ей пользуется западный автоконцерн для обучения своих сотрудников. Поэтому примерно понимаю недостатки, вот и решил поиграться с умными системами.
да
вопросы генерирует ИИ на основе темы
Естественно нужен качественный для уменьшения галлюцинаций. Ну и я использую advanced RAG, который позволяет практически полностью исключить галлюцинации за счет реранкинга и повторных цепочек вопрос-ответ
Это не планируется как полностью самообучение. Это как дополнение к урокам репетитора.
ИИ репетитор посложнее. Но принцип тот же. Ты выбираешь тему, ИИ генерирует ее, потом правишь. Настраиваешь темы урока, продолжительность. Можно подключить квиз и тодга в фазе проверки ИИ не будет генерировать вопросы а будет брать их из квиза, причем в произвольном порядке - каждый раз - разные.
Сам ИИ урок проходит без участия живого репетитора. По итогам делается саммари. Сам урок записывается и на основании ответов ученика делается БД с его ответами, которые будуи учитываться при повторном прохождении а так же для отслеживания прогресса
Вот вкратце так
Я не понимаю, откуда там берется информация для обучения? Она генерируется самим ИИ on-fly и складывается в RAG? И для каждого ученика тогда свой RAG получается что-ли? Дополнительные темы для обучения предлагает ИИ? Там где-то есть вообще контроль человеческий или это полностью генерация? Квизы опять же on-the-fly создаются? И что с галлюцинациями, на каком этапе живой кожанный репититор там вообще в концепте существует? Или не существует.
Начну с квизов. Там две опции - создать руками или с помощью ии. Можно выгрузить из json файла определенного формата. Ты создаешь новый квиз и у тебя есть возможность сгенерировать его с помощью ИИПри это предварительно ты можешь создать свою базу для RAG. загрузить свои вопросы с ответами. Есть возможность загнать просто картинку и система распознает ее и положит чанки в базу. Перед генерацией системпа проверит наличие базы по даннной теме и будет использовать ее при генерации тестов. Когда тест сформирован - ты можешь уже править его ручками, если ИИ ошибся(а такое бывает) - исправляешь вопросы и ответы, добавляешь картинки(в преспективе их тоже можно будет сгенерить)
Для тестов выставляется уровень сложности а также можно включить анти-чит режим - система будет отслеживать попытки погуглить в соседнем окне.Сам тест уже работает без ИИ, только для саммари будет подключен для анализа ответов и выдачи рекомендаций.