bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал Ken
Вспоминается книжка Попова "Общение с ЭВМ на естественом языке" 80 г.
А существуют ли какие-нибудь работающие модели семантического поиска?

Слово "семантический" - ужасное!

Разные люди понимают под этим совершенно разные вещи.

Кроме того, одно время оно было весьма модным

(стало "понятным" массам) и, используя это слово,

раздавались БОЛЬШИЕ обещания, которые кончились пшиком.

В общем, я не знаю "работающие модели семантического поиска".

НО! Существуют достаточно разумные методы:

- интеллектуального (в смысле моделирующие то или иное человеческое поведение) расширения запроса;

- интеллектуального анализа результатов запросов (и интерактивного уточнения запроса);

- неплохие Q&A системы;

и т.п.

В некоторых узких областях удается добиваться

очень неплохих результатов (например, call center).

Кстати, в том же Яндексе (наверное и во многих других системах),

при разборе запроса применяются любопытные, как их там называют, "эвристики".

В прежние времена (в 1980х) кто-нибудь мог бы назвать это

семантическим разбором.

Как писал Ken
2 bvd,
А можно ли просто сравнить мой словарь с вашим?
По принципу: парадигма на парадигму? И Вам проверка и мне.

Да без проблем, только я не очень понимаю как и зачем.

Как:

пришлете мне свой список - я Вам скажу сколько процентов пересечения? (В общем, чтобы за 10-20 минут сделать).

Зачем:

наша морфология заточена на обеспечение обработки текста

(терминология, рубрикация). Основное требование - чтобы

среди порожденных вариантов лемм для незнакомых словоформ

БЫЛ ПРАВИЛЬНЫЙ (*).

Кроме того при словаре в 130 тыс. лемм (при необходимости,

со специальной оболочкой может расти со скоростью/себестоимостью

1000 лемм/неделя/USD40) имеется комплект примочек на приставки,

суффиксы, пользовательский словарь и т.п. (плюс встроенные

модели разных фамилий) - чтобы урезать порождаемый список лемм.

По-моим, возможно неточным, оценкам на российских текстах типа деловой прозы работает правильно (в смысле *) где-то для 99,7-99,9 процентов словоупотреблений. Мне хватает,

при этом без примочек было бы процентов 97.

Для других целей (например, для проверки орфографии) и морфология должна быть своя. То есть можно применять и эту, но результаты будут хуже - надо подкручивать.

То есть имеет смысл сравнивать не словари, а результат работы

программ, например, как предложено И.Сегаловичем. Да и то,

смысла немного при разбросе 97-99% от словоупотреблений.

Да, кстати - откуда цифра 130 тыс. Если мне не изменяет память,

сначала урезали и почистили Зализняка до 70 тыс., затем

набрали для обеспечения покрытия наших текстов и используемых ресурсов.

Еще, кстати, имеется несколько известных дыр,

(не знаю, от кого они идут, может от Зализняка)

но смысла их исправлять пока нет - и так работает.

Есть и несколько проблем - тот же диагноз.

То есть еще более правильно - Вам надо получить проценты покрытия своих текстов (и если захотите, то и точности). А словари сами по себе - зачем?

Как писал Ken
Очень многообещающий топик - но, на мой взгляд, не высказано ни одной ЦЕЛИ, которую необходимо достичь в системе НОВОГО ПОКОЛЕНИЯ: только желание достичь уровня существующих поисковиков.
Может все-таки open source - должен иметь место?

Мне кажется, Вы невнимательно читали топик.

Те пожелания, которые были высказаны в начале обсуждения,

покрываются внедрением SemanticWeb

(попытка перенести тяжесть разбора содержимого страницы

на плечи самих владельцев страниц).

Однако там пока очень много проблем - и основные игроки пока

не готовы в это вкладываться, так как риски подталкивания

глобального перехода на новый ПРИНЦИП существования в сети

не очевидны.

И причем тут open source?

open source - метод, а пока неясен путь к нечеткой цели.

Bye

Как писал Pavelkq
Open Source - это мечта. Вот думаю, что если напишу когда-нибудь что-то стоящее, обязательно поделюсь со всеми желающими. А сейчас приходится по обрывкам фраз Гуру только догадываться о технологиях, пытаясь повторить шаги уже многих. Никто же не отдаст свой хлеб на халяву. Спросил, к примеру, где взять словарь парадигм, мне сразу посоветовали купить.

Программы, ресурсы, которые Вы хотите, имеют очень высокую себестоимость (в частности высокую долю ручного труда)

и представляют не до конца еще решенную задачу.

Поэтому деньги здесь, в основном, просят не для супер большой наживы,

но для развития.

Как писал Pavelkq
Вот и топчемся на месте по ясным причинам.

Если бы было (из области пока нереализуемого) что-то типа

реально работающего патентного права на программы и лингвистические

ресурсы - вот тогда бы не топтались.

А то сейчас можно взять ЧУЖОЙ продукт и не добавить, нет,

ВЫКИНУТЬ половину - и получится НОВЫЙ продукт,

который можно продавать (и продают ведь).

Только такому "улучшателю" он достался за 5 копеек,

а разработчик вложил кучу средств.

И ясно кто имеет в этом случае конкурентные преимущества.

Поэтому-то все прячут, шифруют, и если открывают что-то,

то очень осторожно.

Как писал Pavelkq
Бесплатные словари есть, но они очень ограниченные. Нужно либо найти хороший словарь, либо делать вероятностный метод.

Если проект некоммерческий и Вы можете гарантировать

некоммерческое использование программ/словарей,

то многие могут дать Вам все бесплатно.

Если же не можете гарантировать - тогда за хорошее надо платить

и платить дорого.

Как писал Pavelkq
Проверить словарь - это хорошо! А где бы найти готовые, проверенные, по возможности полные словари?

Лучше всего купить, причем с сопровождением.

Как писал Pavelkq
Есть еще одна интересная задача - словосочетания.
...
Хочется сделать возможным поиск по словосочетаниям. Именно, грамматически правильными, а не просто рядом стоящие слова.

золотые слова, еще бы кто-нибудь мог четко

отделить словосочетания и словосочетания

(в общем, что собственно понимается под словосочетаниями:

именные, глагольные, имена собственные, идиомы и т.п.)?

Насколько я понимаю, группа ВААЛа занимается

двумя вещами:

1) психолингвистикой

2) классификацией текстов по своеобразным рубрикаторам

Что касается п.1 (как раз подбора имен и т.д.) - имеются

большие сомнения, так как не удается воспроизвести другим

исследователям.

Очевидно, что существуют "сильно окрашенные полюса" для хороших

и плохих слов, однако в середине - все совершенно непонятно,

ВААЛ весьма неубедителен.

Общее мнение, что проблема в неучете других факторов, например,

слово "горе" по ВААЛу "радостное" и т.д.

По п.2 - методы, используемые коллективом ВААЛ, весьма профессиональны, однако, когда дело доходит до интерпретации результатов... По очень ограниченным выборкам "получают"

НУ ОЧЕНЬ СМЕЛЫЕ выводы (см. на сайте), правдоподобность которых

остается на усмотрение читателя.

Как писал Gray
Исправлено. Правда, раньше я этой проблемы не припомню - точнее, упоминания о ней - но там все очень просто правится...

Вы будете смеяться, но все то же самое для

Версия. Так как все работает для некоторых других,

то, возможно, проблема сохранилась для "старых" - давно

начатых топиков?

Как писал Nicon
Еще есть у кого идеи?

Без идей - в altavista спрашиваете Racing night

и смотрите Images.

Например:

http://www.draglist.com/photoimages/Photos-RayRay/Full%20Size/blackmag.jpg

Вообще, довольно много всякого с

http://www.draglist.com

Если спросить - Drag Racing - то, например

http://www.draglist.com/stories/SOD%20Aug%202000/SOD-082000.htm

Всего: 133