Что может, что не может AI. Обсуждаем возможности, делимся опытом, спорим, но в рамках приличия.

не хаос
На сайте с 18.10.2021
Offline
91
#841
Вы думаете что легко обучить этот ИИ? Вы бы хоть для общего развития почитали сначала как это все устроено.
"Галлюцинации в моделях, особенно языковых (LLM), — это ситуации, когда модель выдаёт уверенный, но ложный или выдуманный ответ. Это может быть придуманный факт, несоответствие источникам, или логическая ошибка. В генеративных задачах галлюцинации — одна из самых серьёзных проблем.

Измерять галлюцинации сложно: у модели нет встроенного понимания правды, и она не знает, когда врёт. Поэтому оценки галлюцинаций часто делаются постфактум, с привлечением людей (ручная валидация), мета-моделей (детекторы галлюцинаций) или сравнения с базами знаний или источниками.

Пока нет универсального определения галлюцинации, всё зависит от задачи и контекста. Автоматические методы оценки ещё далеки от надёжности, поэтому требуется ручная разметка или наличие "истины", с которой можно сравнивать.

Среди автоматических можно выделить:

FactCC — модель-классификатор, обученная различать фактологически верные и ложные высказывания. Применима для задач суммаризации.

DAE Score (Dependency Arc Entailment) — основан на сопоставлении смысловой близости между сгенерированным и исходным текстом через синтаксические связи. Часто используется в задачах абстрактной суммаризации.

QAGS (Question Answering and Generation Score) — применим в задачах суммаризации и генерации. Оценивает фактологическую точность через промежуточные шаги: генерация вопросов по оригинальному тексту и получение ответов на них из сгенерированного. Чем больше совпадений, тем ниже уровень галлюцинаций.

GPT-based оценка — использование крупной модели (чаще всего GPT) для анализа фактической достоверности текста. Модель получает инструкцию: "Оцени, содержит ли данный текст утверждения, не подтверждаемые оригиналом", — и возвращает бинарный или градуированный вывод.

Одни из наиболее известных протоколов ручной аннотации HALO, HELP и MAF предлагают формализованные подходы, которые позволяют оценивать не просто факт искажения, но и его характер, контекст, уровень серьёзности.

HALO (Hallucination Annotation with Logical Outline) применяется в первую очередь в задачах open-domain диалогов.

Аннотация проводится вручную по заранее заданной схеме: оценивается, насколько генерация модели соответствует исходным фактам, и классифицируется тип галлюцинации.

Например, если пользователь спрашивает у модели: «Кто написал Преступление и наказание?», и та отвечает «Лев Толстой», HALO позволит оценить это как полную фактическую ошибку — придуманную галлюцинацию.

Если же модель скажет, что роман написал Достоевский, но в 1885 году (вместо 1866), это будет искажённый факт.

HALO также учитывает логические ошибки: если вывод модели формально вытекает из данных, но логика нарушена (например, делает обобщения без основания), аннотаторы фиксируют это как логическую галлюцинацию.

Этот протокол полезен для оценки моделей, предназначенных для общения с пользователями, где важно, чтобы модель не только звучала убедительно, но и говорила по делу.

HELP (Hallucination Evaluation with Language Professionals) используется в медицинских задачах, где ошибки модели могут стоить дорого. Здесь аннотирование проводят врачи или медицинские редакторы.

Они вручную оценивают тексты, сгенерированные моделью (например, ответы на клинические вопросы), и помечают фрагменты, содержащие недостоверную информацию.

Особенность HELP в том, что здесь учитываются не только явные фактические ошибки, но и потенциально опасные домыслы: например, если модель «рекомендует» метод лечения, эффективность которого не доказана, либо путает дозировки препаратов. Такая разметка требует глубоких знаний предметной области и чаще всего применяется в исследовательских работах или при тестировании медицинских чат-ботов.

MAF (Meaning Addition, Alteration, Fabrication) — это ещё один ручной протокол, ориентированный на разложение галлюцинации по типу и степени искажения. Он используется, например, при оценке саммари моделей (рефератов, пересказов и т.п.).

В рамках MAF аннотаторы определяют, добавила ли модель информацию, которой не было в исходном тексте (fabrication), изменила ли смысл (alteration) или добавила дополнительный смысл, который сложно проверить (addition).

Например, если модель суммирует статью о климате и «добавляет» утверждение о прямой связи между CO₂ и ураганами (чего в исходной статье нет), это будет fabrication.

Такой подход удобен в задачах суммаризации, реферирования, генерации новостей, особенно если важно избежать недостоверных обобщений.

Эти ручные метрики помогают строить датасеты для последующей автоматической оценки, калибровки моделей и обучения на обратной связи. Несмотря на их трудоёмкость, именно они задают стандарт, по которому можно сравнивать работу разных моделей на чувствительных или требующих фактической строгости задачах." sostav.ru

P
На сайте с 26.04.2010
Offline
418
#842
не хаос #:
Вы думаете что легко обучить этот ИИ?

Тогда зачем его обучать, если легче обучить человека?

Чтобы убрать "человеческий фактор", который подразумевает занимание должности при низкой реальной квалификации?

То есть, если знания человека не превосходят ИИ, он как раз является этим "человеческим фактором", подлежащим замене на ИИ.

не хаос
На сайте с 18.10.2021
Offline
91
#843
Пытаюсь вникнуть чтобы на равных дискутировать с программистами. Естественно, это очень долгий процесс.
C
На сайте с 07.05.2010
Offline
243
#844
alaev #:

Жлобство победило здравомыслие. в жопити баг на баге

А в чем ошибка с корнем квадратным?

P
На сайте с 26.04.2010
Offline
418
#845
ctit ctit #:

А в чем ошибка с корнем квадратным?

Квадратный корень не извлекают из отрицательного числа.

не хаос
На сайте с 18.10.2021
Offline
91
#846
Так он ввел в задание мнимое число i, Алиса в этом контексте и стала решать задачу.
P
На сайте с 26.04.2010
Offline
418
#847
не хаос #:
Так он ввел в задание мнимое число i, Алиса в этом контексте и стала решать задачу.

И получила ответ: корень из двух. Однозначно.

не хаос
На сайте с 18.10.2021
Offline
91
#848
То есть схитрила не Алиса а другой оптимизатор.
P
На сайте с 26.04.2010
Offline
418
#849
не хаос #:
То есть схитрила не Алиса а другой оптимизатор.

Когда Алиса прет контент с сайтов, ответы адекватны. Когда "генерирует в анналах своего разума" - получается бред с шизой.

alaev
На сайте с 18.11.2010
Offline
862
#850
plab #:

Когда Алиса прет контент с сайтов, ответы адекватны. Когда "генерирует в анналах своего разума" - получается бред с шизой.

Алиса - тупая, отбитая дура.

Чтобы люди не тупели (особенно дети), яндекс нужно забанить.


Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий