- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Измерять галлюцинации сложно: у модели нет встроенного понимания правды, и она не знает, когда врёт. Поэтому оценки галлюцинаций часто делаются постфактум, с привлечением людей (ручная валидация), мета-моделей (детекторы галлюцинаций) или сравнения с базами знаний или источниками.
Пока нет универсального определения галлюцинации, всё зависит от задачи и контекста. Автоматические методы оценки ещё далеки от надёжности, поэтому требуется ручная разметка или наличие "истины", с которой можно сравнивать.
Среди автоматических можно выделить:
FactCC — модель-классификатор, обученная различать фактологически верные и ложные высказывания. Применима для задач суммаризации.
DAE Score (Dependency Arc Entailment) — основан на сопоставлении смысловой близости между сгенерированным и исходным текстом через синтаксические связи. Часто используется в задачах абстрактной суммаризации.
QAGS (Question Answering and Generation Score) — применим в задачах суммаризации и генерации. Оценивает фактологическую точность через промежуточные шаги: генерация вопросов по оригинальному тексту и получение ответов на них из сгенерированного. Чем больше совпадений, тем ниже уровень галлюцинаций.
GPT-based оценка — использование крупной модели (чаще всего GPT) для анализа фактической достоверности текста. Модель получает инструкцию: "Оцени, содержит ли данный текст утверждения, не подтверждаемые оригиналом", — и возвращает бинарный или градуированный вывод.
Одни из наиболее известных протоколов ручной аннотации HALO, HELP и MAF предлагают формализованные подходы, которые позволяют оценивать не просто факт искажения, но и его характер, контекст, уровень серьёзности.
HALO (Hallucination Annotation with Logical Outline) применяется в первую очередь в задачах open-domain диалогов.
Аннотация проводится вручную по заранее заданной схеме: оценивается, насколько генерация модели соответствует исходным фактам, и классифицируется тип галлюцинации.
Например, если пользователь спрашивает у модели: «Кто написал Преступление и наказание?», и та отвечает «Лев Толстой», HALO позволит оценить это как полную фактическую ошибку — придуманную галлюцинацию.
Если же модель скажет, что роман написал Достоевский, но в 1885 году (вместо 1866), это будет искажённый факт.
HALO также учитывает логические ошибки: если вывод модели формально вытекает из данных, но логика нарушена (например, делает обобщения без основания), аннотаторы фиксируют это как логическую галлюцинацию.
Этот протокол полезен для оценки моделей, предназначенных для общения с пользователями, где важно, чтобы модель не только звучала убедительно, но и говорила по делу.
HELP (Hallucination Evaluation with Language Professionals) используется в медицинских задачах, где ошибки модели могут стоить дорого. Здесь аннотирование проводят врачи или медицинские редакторы.
Они вручную оценивают тексты, сгенерированные моделью (например, ответы на клинические вопросы), и помечают фрагменты, содержащие недостоверную информацию.
Особенность HELP в том, что здесь учитываются не только явные фактические ошибки, но и потенциально опасные домыслы: например, если модель «рекомендует» метод лечения, эффективность которого не доказана, либо путает дозировки препаратов. Такая разметка требует глубоких знаний предметной области и чаще всего применяется в исследовательских работах или при тестировании медицинских чат-ботов.
MAF (Meaning Addition, Alteration, Fabrication) — это ещё один ручной протокол, ориентированный на разложение галлюцинации по типу и степени искажения. Он используется, например, при оценке саммари моделей (рефератов, пересказов и т.п.).
В рамках MAF аннотаторы определяют, добавила ли модель информацию, которой не было в исходном тексте (fabrication), изменила ли смысл (alteration) или добавила дополнительный смысл, который сложно проверить (addition).
Например, если модель суммирует статью о климате и «добавляет» утверждение о прямой связи между CO₂ и ураганами (чего в исходной статье нет), это будет fabrication.
Такой подход удобен в задачах суммаризации, реферирования, генерации новостей, особенно если важно избежать недостоверных обобщений.
Эти ручные метрики помогают строить датасеты для последующей автоматической оценки, калибровки моделей и обучения на обратной связи. Несмотря на их трудоёмкость, именно они задают стандарт, по которому можно сравнивать работу разных моделей на чувствительных или требующих фактической строгости задачах." sostav.ru
Вы думаете что легко обучить этот ИИ?
Тогда зачем его обучать, если легче обучить человека?
Чтобы убрать "человеческий фактор", который подразумевает занимание должности при низкой реальной квалификации?
То есть, если знания человека не превосходят ИИ, он как раз является этим "человеческим фактором", подлежащим замене на ИИ.
Жлобство победило здравомыслие. в жопити баг на баге
А в чем ошибка с корнем квадратным?
А в чем ошибка с корнем квадратным?
Квадратный корень не извлекают из отрицательного числа.
Так он ввел в задание мнимое число i, Алиса в этом контексте и стала решать задачу.
И получила ответ: корень из двух. Однозначно.
То есть схитрила не Алиса а другой оптимизатор.
Когда Алиса прет контент с сайтов, ответы адекватны. Когда "генерирует в анналах своего разума" - получается бред с шизой.
Когда Алиса прет контент с сайтов, ответы адекватны. Когда "генерирует в анналах своего разума" - получается бред с шизой.
Алиса - тупая, отбитая дура.
Чтобы люди не тупели (особенно дети), яндекс нужно забанить.