За 2 дня 20 000 строк кода - покрытие тестами кодовой базы рабочего проекта. ДВАДЦАТЬ ТЫСЯЧ СТРОК.
https://www.reddit.com/r/claude/comments/1sbrh6x/claude_randomly_charging_my_card_for/?tl=ru
https://habr.com/ru/articles/1021936/
Из мой недавней практики. Сами виноваты. Простой проект, простой код. Все путём. Добавляется сложность и ИИ начинает нести пургу. Сначала чуть-чуть, потом пурги становится все больше и больше. Если агента не контролировать, а просто кормить ему одну фичу за другой, то код превратится в тёмный лес. И чтобы в этом лесу ориентироваться ему нужно много итераций и много токенов.
Это не зло, это просто так работает, если снять контроль или не иметь его с самого начала. Выхода два: или с самого начала жёсткая понятная архитектура проекта и указание "шаг в сторону растрел". Но для этого нужно разумно спланировать всю структуру перед началом кодинга.
Второй вариант, если изобретаем и придумываем в процессе кодинга, то вести на жёстком поводке. Давать спланировать, откорректировать план, дать написать. По мере роста делать рефакторинг.
Я сама программист, но с вайб-кодингом не подружилась. Ии агентам не доверяю. Пишу мелкие задачи, прошу спланировать, корректирую план, итерация, и только потом код. Получается дёшево и сердито в плане токеном. Чистый, понятный код. Но в разы медленней, чем вайб-кодинг.
У меня все везде переходит, у вас какие то проблемы с интернетом видимо. Все работает как и раньше.
Всем привет!
Всегда было интересно узнать, в каких еще странах мира, принято сгонять авто с крайнего левого ряда, едущего соблюдая скоростной режим, мигая ему дальним светом, бибикая, и совершая опасные маневры, типа бычки, или это только у нас в Бутово так :)?
- парсинг информации с нужных тебе источников
- сканирование и распознавание, в том числе и заметок на полях
- загрузка текстов напрямую
Все это чистится от мусора, естественно не руками. бьется на чанки с перекрытием и загружается в базу
Так же как ты свою информацию поддерживаешь. Вся информация в базе храниться по темам и подразделам(опционально) Ты можешь посмотреть и удалить неактуальное. Но кроме этого, в связке
Но вот это уже как бы пройденный этап. Пробовала парсить, чанки - ембединги, само собой, складывала в pgvector. То, что документаций на 100% актуальных и полных не бывает - это факт. Т. е. где-то устарело, где-то забыли добавить. К тому же там еще были намешаны описания дополнительных опциальных модулей. У обучающего прав на его установку не было. Поэтому в ходе сбора нужно было убирать всю информацию по допмодулям. Но чисто не получилось. Оставались ошметки. Додумалась еще пропарсить GUI через playwright, чтобы было реально видно, что видит пользователь в натуре. Дальше генерировала на основе обучающий контент. Естественно в GUI были незадокументированные фичи. Возникал вопрос по Чернышевскому "Что делать?":1. Дать ИИ погадать в контексте RAG, что это могло быть.2. Ограничить его, чтобы честно выдавал "я, хз, что это такое"Дальше выходило обновление какой-то библиотеки. Его нужно было забить в RAG, не проблема. А дальше нужно было перегенировать весь статичный обучающий контент, чтобы это изменение учесть. Тут у меня вынесло мозг и закончились токены.Результат: весь эксперимент был выброшен на помойку.И вот пока я это все писала, я подумала, sly, а не мог бы твой ИИ тутор научить меня создавать RAG, чтобы с самого начала правильно, максимально на автомате, но чисто. И при этом не пожирая 10000000 токенов для изменения двух строчек? Может?
Вот в это все и упирается. Остальное написать/создать/закодить не проблема. Как создать качественный RAG, если информация в принципе на 30% в неструктурированном виде в голове репититора. Как запихать его голову в RAG?Я понимаю, что это уход от темы. Но лично для меня любое создание контента для обучения на данном этапе упирается в RAG. Все остальное - это код, который пишется в 2-3 дня. Не проблема.