Anthropic recently launched the Claude Certification Program.
Оказывается наша контора является соучредителем этой программы с Антропиком, благодаря этому нам дали свободный доступ к курсам и сертификации. Прошел пару курсов уже. Не скажу что прям пока узнал много нового, но есть и интересные вещи, касающиеся именно работы с Claude. В частности толковое обьяснение проектов, артифактов и коннекторов, как настраивать и пользоваться, доступные фреймворки и коворкинги. В принципе все по документации, но структурировано и для базы очень хорошо.
Мне кажется тут у тебя не очень верный подход. Для того и нужны эмбеддинги чтобы каждый раз не перегенерить всю статику, да и даже при использовании OpenAI embeddings там не очень большой расход. Впрочем можно использовать и другие либы, бесплатные. Я сначала вообще с HF работал.
Тут же весь смысл в том чтобы правильно подбирать документы. Можно усилить - добавить BM25. А потом реранкинг
- парсинг информации с нужных тебе источников
- сканирование и распознавание, в том числе и заметок на полях
- загрузка текстов напрямую
Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу
Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке
как я уже писал - в планах использовать advanced RAG. В принципе использование строится на эмбеддингах, которые высчитываются в момент загрузки конента. Для любого ответа высчитыввется ranking score. На основании этого происходит реранкинг и выдается самый релевантеый вариант. Кстати его тоже можно сохранять в бд и в дальнейгем уже будет меньше блужданий и четче конкретика. Это очень-очень приблизительное описание работы. Но по крайней мере по темам, которые я хорошо знаю, я уже, даже без aRAG вижу приличные результаты.
Вот в это все и упирается. Остальное написать/создать/закодить не проблема. Как создать качественный RAG, если информация в принципе на 30% в неструктурированном виде в голове репититора. Как запихать его голову в RAG?Я понимаю, что это уход от темы. Но лично для меня любое создание контента для обучения на данном этапе упирается в RAG. Все остальное - это код, который пишется в 2-3 дня. Не проблема.
Я же как раз кодер а не контентщик. Мне интересно создать систему, максимально удобную для использования. Как запихать - это тоже работа. Это отдельный функционал системы, позволяющий загружать данные из разных источников. А задача системы - правильно данные систематизировать.
Ну и я говорил - для меня тут нет, по крайней мере пока, коммерческой составляющей. Просто развлечение.Я в свое время занимался обучающими системами. До сих пор ей пользуется западный автоконцерн для обучения своих сотрудников. Поэтому примерно понимаю недостатки, вот и решил поиграться с умными системами.
да
вопросы генерирует ИИ на основе темы
Естественно нужен качественный для уменьшения галлюцинаций. Ну и я использую advanced RAG, который позволяет практически полностью исключить галлюцинации за счет реранкинга и повторных цепочек вопрос-ответ
Это не планируется как полностью самообучение. Это как дополнение к урокам репетитора.