Punto.ru открылся раздел нечеткого поиска

B

37

Bamboo

22 декабря 2001, 22:06

5840

На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy

Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

VT

130

Vyacheslav Tikhonov

23 декабря 2001, 03:52

#1

Originally posted by Bamboo:
На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy

Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?

А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

23 декабря 2001, 13:56

#2

Originally posted by Bamboo:
Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

Фича, может быть, и полезная - посещаемость раздела покажет.

Два комментария:

1. К нечёткому поиску данная функция имеет только маркетинговое отношение. В чём же тут нечёткость? Это обычный поиск по шаблону (с wildcards).

Нечёткий поиск - нечто совершенно другое, когда вычисляется некая мера смысловой близости текста к запросу при том, что не все слова запроса вообще входят в релевантный текст.

2. Пунто - далеко не первый поисковик, который работает с опечатками, транслитерированием и т.п. Это давно делают Яндекс, Апорт. Смотри также модуль ОРФО в составе Microsoft Office.

Правда, все они сразу же проверяют варианты по словарю, чтобы снизить количество шума.

Другое дело, что поиск именно опечаток в обычном поисковике теоретически неверен и практически вреден, что легко доказать (опечатки статистически незначимы, то есть полноту не повышают, а их поиск создаёт значительный шум, то есть снижает точность).

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

37

Bamboo

23 декабря 2001, 16:10

#3

ИА: 1. К нечёткому поиску данная функция имеет только маркетинговое отношение. В чём же тут нечёткость? Это обычный поиск по шаблону (с wildcards).

Нет Игорь тут Вы не правы. Это не просто поиск по шаблону, мы проверяем не только наличие опечаток или отсутствие букв, но также есть алгоритм проверки на ошибки письменные, слуховые. Ошибки типичные для русского человека при написании иностранных слов.

ИА: 2. Пунто - далеко не первый поисковик, который работает с опечатками, транслитерированием

И тут вынужден вас огорчить! Punto работает с транслитирированием с 10 апреля 2001 года это на месяц раньше чем Яндекс!

Одним из основных назначений нечеткого поиска является определение пользователем вероятности написания слова, когда имеются сомнения. Пример:

грегорианский или григорианский

Еще одно важное применений когда в длинном слове человек помнит начало и конец или только начало. Пример:

дидецилдиметиламмоний

разве Яндекс или Апорт выдадут в виде подсказки - дидецилдиметиламмонийхлорид?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

24 декабря 2001, 15:10

#4

Originally posted by Vyacheslav Tikhonov:

Originally posted by Bamboo:
На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy

Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?
А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

24 декабря 2001, 15:24

#5

Нет, в истории мы входить не спешим: просто обычно поисковик использует "маленький" спелл-чекер, то есть словарь спелл-чекера ограничен словами, для которых ивестны их грамматические формы.

Таких слов тысяч 300. Интереснее было бы иметь "большой" спелл-чекер - на весь словарь поисковой машины.

Это на случай, если не знаешь, например название лекарства. Я уже, даже, сам воспользовался. Записал название, а ссылок по нему нашел с гулькин нос. Оказалось, что спутал а с о, или что-то в этом духе. Никакой яндексовский спелл-чекер, разумеется, ничего мне не сказал, потому что его словарь лекарства не включает, а раздел punto - fuzzy помог его найти.

Раздел можно также использовать для поиска наиболее вероятных написаний пришедших к нам зарубежных слов: терминов, названий груп, итд..

Это нужно не часто, но иногда - полезно. А TREC, как несложно видеть, не слишком подходит для РУНЕТА, потому что объем документов большой, и шум от нечеткого поиска велик. А вот если действовать более тонко: то есть "включать" его только для запросов, выдавших малое количество результатов, то можно иногда приятно порадовать пользователя.

Например: ищется какая-то цитата, в которой есть слово "хеширование". Это слово, как известно, в русском каждый пишет, как ему нравится. В результате поиска нашлось мало и не то, потому что на нужной паге слово было хэширование, через э.

Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.

Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?

А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

24 декабря 2001, 18:20

#6

Originally posted by itman:
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.

По-видимому, у вас с Игорем Ашмановым разные представления о нечетком поиске.

Насколько я помню свой университетский курс по нечеткой логике, нечеткие системы (в моем случае управления) обычно имеют базу знаний и набор правил. На основании этого в зависимости от входов системы определяются выходы системы (то есть примерно то, о чем говорит Ашманов, база знаний позволяет расширять запрос словами, которые в нем не встречаются).

Я немного знаком с работами Зобеля, в частности, с реализацией лексикона в виде n-грамм, но там все довольно просто и нечетскости в таком виде не нашел.

Может быть, дадите понятие нечеткого поиска, если это не слишком затруднительно?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

NW

69

NightWing

24 декабря 2001, 18:48

#7

Коллеги, а каким user agent'ом и с каких IPх ходит пунто? А то что-то я ничего подобного не находил в логах сервера... Или они берут индексы у других ботов?

Maxim A. Ralnikovhttp://ralnikov.com

I

64

itman

24 декабря 2001, 19:42

#8

Originally posted by Vyacheslav Tikhonov:

Originally posted by itman:
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.

По-видимому, у вас с Игорем Ашмановым разные представления о нечетком поиске.

Совсем необязательно. Просто нечеткий поиск нечеткому поиску рознь. В самом общем и абстрактном виде: есть набор документов, есть поисковый шаблон, есть понятие функции близости найденного документа поисковому шаблону.

С точки зрения этого определения ЛЮБАЯ поисковая машина осуществляет нечеткий поиск с ранжированием по функции близости.

А тот раздел, который открылся на сайте подразумевает только поиск по сходству в словаре поисковой машины, то бишь, поиск слов с опечатками, ошибками, и слов неизвестного написания.

В соответствии с определением, пользователь может задавать различные типы поискового шаблона и вводить максимально допустимое количество опечаток.

Кстати, обращаясь к классике, это ближе работам Левенштайна, Юкконена, Манбера и множества других авторов.

В дальнейшем в качестве улучшения качества словарно поиска, опять-таки мы планируем улучшить функцию ранжирования (чтобы, грубо говоря, замена а на о имела меньший вес).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

24 декабря 2001, 19:55

#9

Originally posted by NightWing:
Коллеги, а каким user agent'ом и с каких IPх ходит пунто? А то что-то я ничего подобного не находил в логах сервера... Или они берут индексы у других ботов?

Да мы просто периодически совершаем набеги на серверные яндекса с выгребанием жестких дисков :-)))

VT

130

Vyacheslav Tikhonov

24 декабря 2001, 20:14

#10

Originally posted by itman:
С точки зрения этого определения ЛЮБАЯ поисковая машина осуществляет нечеткий поиск с ранжированием по функции близости.

То есть если поисковая машина осуществляет поиск только по одной форме слова, введенной пользователем (а расстояние Левенштайна здесь точно равно нулю ), это тоже нечеткий поиск?

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи