Насчет нечеткого поиска СЛОВ - это серьезная матлингвистика - Яндекс

Punto.ru открылся раздел нечеткого поиска

Bamboo · 2026-07-01T11:07:43.0000000Z

На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

I

64

itman

27 декабря 2001, 01:05

#31

Originally posted by AlexA:
Прежде всего, спасибо за замечания. Многие из них действительно очень точные. Я думаю, что с двух процентов до большего количества всегда можно поднять. Яндекс же не отказывается от своего спелл-чекера, а какая у него полезность? Тоже, надо думать, исчисляется процентами.

Тут же надо еще и оценивать еще и сложность реализации, а она составляет те же несколько процентов от общей сложности проекта. Так что все не так уже страшно, а AterScan здесь, кстати, совсем не причем. Никто его никуда не приспосабливал.

Originally posted by Ashmanov:
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.

Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

27 декабря 2001, 01:44

#32

Originally posted by AlexA:
Для справки: я, в свое время, тоже показывал Игорю свои наработки. И получил не меньше тумаков от него и его сотрудников. И это не отвратило меня от моих идей. И даже кое-что получается.

А что за случай - напомните, пожалуйста?

Насчёт тумаков - слишком сильное выражение. Вроде у нас нет такого рефлекса, мы же не родственники слонёнка.

Да и здесь мы обсуждаем поиск опечаток в довольно академическом тоне, не так ли, коллеги?

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

27 декабря 2001, 02:02

#33

Originally posted by Bamboo:
Стоит ли играть на таких малых величинах?
А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...

Ну, положим, юзерами нас можно называть, это не обидно. Мы же юзаем всякие там программы.

С другой стороны, мы с товарищами за свою жизнь сделали десяток разных нечётких искалок, в том числе для Word.

Как оно появляется, имеем некоторое представление.

Мы эту штуку проходили в 1991-1995 годах.

У нас когда-то тоже были иллюзии относительно "заводных фич" в поиске, двуязычном словаре, спеллинг-чекере и т.п. Так оно не работает, увы. За заводную фичу продукт не купят лишний раз. Он должен решать хорошо основную проблему.

В частности, в 1998 мы вкручивали Русский Семантический Сервер в известную искалку Excalibur. Там тоже с гордостью продавцы говорили, что вот нечёткий поиск, что по заказу ФБР и т.п. А морфологию и тезаурус тем не менее купили и продают. Потому что нечёткий поиск СЛОВ - marketing bullshit. Не работает Экскалибур. На "свободолюб" находит что бы Вы думали? "долбо#б".

А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.

Вопрос ведь не в том, "заводная" ли очередная фича или нет, а в том, насколько он нужна и стоит ли тратить деньги и время.

Это как профилирование программы - если опция нужна в 2% случаев (внимание, проценты условны!!!), или даёт улучшение в 2% случаев, то выигрыш при стопроцентном, даже пятисотпроцентном улучшении качества именно этой функции всё равно будет не более тех самых 2%.

Совершенно очевидно, что Пунто имеет среднюю релевантность и малый объём. Интерфейс, прошу прощения за категоричность, эксплуатирует идеи пятилетней давности - плоский список результатов с невнятными заголовками и мусорными аннотациями. Пользователю внушается мысль, что Интернет - это помойка. А замечу в сторону, что во всём мире идут к рубрикации результатов поиска - на лету или по предопределённым рубрикам.

Небольшое улучшение любой из данных характеристик даст видимый глазом эффект. Потому что вес у них большой.

Раз так, зачем тратить силы на подобные "плюшки"? Только из молодого задора или за ради маркетинга. И в самом деле - вон мы тут сколько электронных чернил извели, а Яндекс это всё заиндексировал.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

27 декабря 2001, 04:53

#34

Originally posted by Ashmanov:

С другой стороны, мы с товарищами за свою жизнь сделали десяток разных нечётких искалок, в том числе для Word.
Как оно появляется, имеем некоторое представление.

В смысле стандартный русский вордовый спеллер вы делали? (Это так, любопытство)

В частности, в 1998 мы вкручивали Русский Семантический Сервер в известную искалку Excalibur. Там тоже с гордостью продавцы говорили, что вот нечёткий поиск, что по заказу ФБР и т.п. А морфологию и тезаурус тем не менее купили и продают. Потому что нечёткий поиск СЛОВ - marketing bullshit. Не работает Экскалибур. На "свободолюб" находит что бы Вы думали? "долбо#б".

Ну я общался с людьми, которые экскалибур делали: они применили методику, которая для
русского языка (да и для английского тоже) не сильно применима (я имею в виду биграммы), совершенно согласен, что она дает порой удивительные результаты.

А потом эскалибур не там продавали. Нужно было задвигать его медикам и химикам. Там-то, как раз все хорошо. Среди десяткjd миллионов (и это не преувиличение) десятиэтажных терминов нужный без нечеткого поиска не найти.

Там, кстати, это не двухпроцентная фича, а насущная необходимостью

А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.

Скорее, мета-лингвистика, с ударами в бубен :-)). Кто впереди планеты всей: гугл, а в основу движка, если верить авторским статьям, заложены далеко не супер-идеи, а, скорее, идеи, основанные на здравом смысле.
Что ж, здравый смысл победил, да здравствует здравый смысл. Матлингвистика же, пока, увы отдыхает.

AA

70

AlexA

27 декабря 2001, 16:36

#35

Originally posted by Ashmanov:
А что за случай - напомните, пожалуйста?
Насчёт тумаков - слишком сильное выражение. Вроде у нас нет такого рефлекса, мы же не родственники слонёнка.

Приношу извинения за неакадемическое выражение. С Вами мы общались на одной из выставок, а весной были у Вас в Рамблере. Детали, я думаю, к данной теме не относятся.

С уважением, Антонов Александр.

AA

70

AlexA

27 декабря 2001, 16:58

#36

Originally posted by itman:

А потом эскалибур не там продавали. Нужно было задвигать его медикам и химикам.
--------
ASHMANOV: А нечёткий поиск ДОКУМЕНТОВ - серьёзная матлингвистика.
--------
Скорее, мета-лингвистика, с ударами в бубен :-)).

Ну вот, и матлингвистике досталось.

А насчет определения рыночной ниши - Вы правы, есть применения для данной идеи. Сходу могу назвать ведение спецБД, с большим стандартным вводом. Нужно точнее это определить, и найти соответствующих заказчиков.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F

116

funsad

27 декабря 2001, 18:09

#37

Originally posted by Bamboo:
Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.

Я уже писал выше, что анализ расстояния на клавиатуре между клавишами (в данном случае "д" и "й") может помочь исключить многие варианты.

Анализ контекстов, в которых это слово встречается.

Расчет вероятности ошибки такого рода и, после сопоставления частот слов, вывод о том, опечатка это или другое слово. Скажем, "дети" встречается в Яндексе 3794631 раз, а "йети" -- 5516. Даже если считать "йети" неверным написанием слова "дети", то получается, что ошибку делают в одном из 689 случаев. Довольно редкий случай, правда? Даже ошибки вида "Ельцин/Ельцын" имеют соотношение не больше 100-150.

Если выяснены контексты, где встречается данное слово (то есть это заведомо опечатка), "правильную" форму можно попробовать определить, вычисляя вес PageRank страниц с тем и другим словом. Предположительно, более весомые страницы чаще бывают грамотными.

И т.д.

С уважением,

Александр Садовский.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

27 декабря 2001, 18:25

#38

Да, про вероятные опечатки - это все понятно. Другое дело, что хотелось бы как-то еще дополнительно использовать частоту встречаемости слова в БД, а с этим намного хуже, потому, что как Вы правильно заметили, если часто, еще не значит, что правильно :-((

даже PageRank здесь не поможет, потому что есть совершенно разные слова, очень близкие по написанию, но разные по частоте появления.

В основном, это касается коротких слов. То есть тут надо как-то учитывать еще и длину слова.

Originally posted by funsad:

Originally posted by Bamboo:
Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.

Я уже писал выше, что анализ расстояния на клавиатуре между клавишами (в данном случае "д" и "й") может помочь исключить многие варианты.

Анализ контекстов, в которых это слово встречается.

Расчет вероятности ошибки такого рода и, после сопоставления частот слов, вывод о том, опечатка это или другое слово. Скажем, "дети" встречается в Яндексе 3794631 раз, а "йети" -- 5516. Даже если считать "йети" неверным написанием слова "дети", то получается, что ошибку делают в одном из 689 случаев. Довольно редкий случай, правда? Даже ошибки вида "Ельцин/Ельцын" имеют соотношение не больше 100-150.

Если выяснены контексты, где встречается данное слово (то есть это заведомо опечатка), "правильную" форму можно попробовать определить, вычисляя вес PageRank страниц с тем и другим словом. Предположительно, более весомые страницы чаще бывают грамотными.

И т.д.

С уважением,
Александр Садовский.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

37

Bamboo

27 декабря 2001, 19:39

#39

Скажем, "дети" встречается в Яндексе 3794631 раз, а "йети" -- 5516. Даже если считать "йети" неверным написанием слова "дети", то получается, что ошибку делают в одном из 689 случаев.

Уважаемый Александр,

полностью с Вами согласен, единственно, в ваших рассчетах есть незначительная ошибка.

"Дети" естественно нормализованы, а "йети" нет. так что вероятность 1 к 200, скорее чем к 600.

130

spark

27 декабря 2001, 20:24

#40

А можно простому юзеру вставить свои пять копеек в эту битву железных канцлеров?

Классический пример из мери шелли "Поэма спеллчекера"

Не найдено в словаре пидоров

Заменить на сидоров

Не найдено в словаре минетчиков

Заменить на минометчиков.

Наконец-то я узнал, кто выступал основным соавтором этой поэммы в 1991-95 годах Большое спасибо.

Список рекомендованной литературы: http://www.net.cl.spb.ru/cetera/manifest.htm

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Punto.ru открылся раздел нечеткого поиска