Теперь он стал бесплатным
https://github.com/instructkr/claw-code
Anthropic recently launched the Claude Certification Program.
Оказывается наша контора является соучредителем этой программы с Антропиком, благодаря этому нам дали свободный доступ к курсам и сертификации. Прошел пару курсов уже. Не скажу что прям пока узнал много нового, но есть и интересные вещи, касающиеся именно работы с Claude. В частности толковое обьяснение проектов, артифактов и коннекторов, как настраивать и пользоваться, доступные фреймворки и коворкинги. В принципе все по документации, но структурировано и для базы очень хорошо.
Мне кажется тут у тебя не очень верный подход. Для того и нужны эмбеддинги чтобы каждый раз не перегенерить всю статику, да и даже при использовании OpenAI embeddings там не очень большой расход. Впрочем можно использовать и другие либы, бесплатные. Я сначала вообще с HF работал.
Тут же весь смысл в том чтобы правильно подбирать документы. Можно усилить - добавить BM25. А потом реранкинг
- парсинг информации с нужных тебе источников
- сканирование и распознавание, в том числе и заметок на полях
- загрузка текстов напрямую
Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу
Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке
как я уже писал - в планах использовать advanced RAG. В принципе использование строится на эмбеддингах, которые высчитываются в момент загрузки конента. Для любого ответа высчитыввется ranking score. На основании этого происходит реранкинг и выдается самый релевантеый вариант. Кстати его тоже можно сохранять в бд и в дальнейгем уже будет меньше блужданий и четче конкретика. Это очень-очень приблизительное описание работы. Но по крайней мере по темам, которые я хорошо знаю, я уже, даже без aRAG вижу приличные результаты.