Лучше вообще ничего не далать - Яндекс

Punto.ru открылся раздел нечеткого поиска

Bamboo · 2026-07-01T11:07:43.0000000Z

На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

B

37

Bamboo

26 декабря 2001, 00:26

#21

АС: Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова.

Спсибо поправим.

АС: Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.

Злопыхательство затмевает глаза? См. йети на позиции 10 - 112 вхождений.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

26 декабря 2001, 04:39

#22

Originally posted by itman:
Просто сначала я сделал вариант "грубого" поиска, а теперь еще собираюсь сделать более тонкое ранжирование, которой таки варианты, как фуджицу и фуджитсу будет учитывать.

n-граммы здесь не причем поиск идет по количеству очепяток в чистом виде.

А всё-таки - зачем нужен этот поиск опечаток?

Тем, кто раскручивает сайты (или свой сайт), нужен анализ запросов, то есть того, что ищут посетители, а не того мусора, что есть в сети. Для такого анализа есть Яндекс-Директ и Рамблер-Ассоциации.

Поисковая же машина не должна искать опечатки, потому что этот поиск сильно ухудшает качество. Объяснение простое:

а) полнота не растёт, потому что в подавляющем большинстве случаев на той же странице есть также и правильно написанное то же самое слово.

Опечаток, даже в Интернет-текстах, в среднем 2-5 на странице, то есть не более двух процентов.

Случай, когда слово сильно релевантно, при этом - одно на странице, да ещё при этом содержит ошибку - просто очень маловероятный.

б) поиск опечаток сильно ухудшает точность. Для проверки возьмите короткое слово в русском Ворде, удалите букву и нажмите F7. Получите список из десятков правильных вариантов. Ну и что - все их искать?

Это я к чему говорю: построение сколько-нибудь нормального подбора вариантов - дело очень трудное и долгое, много прикладной лингвистики придётся изучить. Замена "ц" на "тс" - ещё цветочки.

Потом придётся побороться с ранжированием вариантов по наибольшей распространённости (а как узнать частотность?), комбинаторным взрывом и так далее. Капитализация, буква -ё-, вставка пробела, замена похожей латиницы, прочие ужасы.

Для того же подбора для Ворда мы в своё время потратили-таки полгодика. И то - были люди в наше время, богатыри...

А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 декабря 2001, 06:35

#23

Есть еще и случай, когда "мусор" в голове, а правильное слово в инете. К тому же, опять-таки, вспомним про хеширование/хэширование. Еще пример на эту тему: названия городов (редкие). А это уже не совсем мусор.

Так что мы ищем не совсем с учетом опечаток. К тому же поисковая машина ДОЛЖНА искать с учетом опечаток, как миниуму, она должна предлагать варианты правильного написания, если запрос вернул мало документов.

Еще раз не поленюсь сказать про "большой" спелл-чекер, редкие термины (я, например, искал название лекарства и нашел его именно так).

Про частотность различных опечаток - это нужно, конечно, исследовать, есть достаточно стандартные наборы: опечатки при наборе, распространенные ошибки.

Хочу заметить, что комбинаторный взрыв нам не страшен, потому что эти правила мы будем использовать на этапе ранжирования, когда получен список близких ключевых слов с помощью "грубого" алгоритма.

К тому же мы не генерируем "в лоб" все варианты: некое увеличение времени ранжирования произойдёт, но взрыва явно не будет.

А люди были, есть и будут... работать на благо Штатов, ЕС, Канады и Австралии.

Originally posted by Ashmanov:
А всё-таки - зачем нужен этот поиск опечаток?

Тем, кто раскручивает сайты (или свой сайт), нужен анализ запросов, то есть того, что ищут посетители, а не того мусора, что есть в сети. Для такого анализа есть Яндекс-Директ и Рамблер-Ассоциации.

Поисковая же машина не должна искать опечатки, потому что этот поиск сильно ухудшает качество. Объяснение простое:
а) полнота не растёт, потому что в подавляющем большинстве случаев на той же странице есть также и правильно написанное то же самое слово.
Опечаток, даже в Интернет-текстах, в среднем 2-5 на странице, то есть не более двух процентов.
Случай, когда слово сильно релевантно, при этом - одно на странице, да ещё при этом содержит ошибку - просто очень маловероятный.

б) поиск опечаток сильно ухудшает точность. Для проверки возьмите короткое слово в русском Ворде, удалите букву и нажмите F7. Получите список из десятков правильных вариантов. Ну и что - все их искать?

Это я к чему говорю: построение сколько-нибудь нормального подбора вариантов - дело очень трудное и долгое, много прикладной лингвистики придётся изучить. Замена "ц" на "тс" - ещё цветочки.
Потом придётся побороться с ранжированием вариантов по наибольшей распространённости (а как узнать частотность?), комбинаторным взрывом и так далее. Капитализация, буква -ё-, вставка пробела, замена похожей латиницы, прочие ужасы.

Для того же подбора для Ворда мы в своё время потратили-таки полгодика. И то - были люди в наше время, богатыри...

А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F

116

funsad

26 декабря 2001, 09:40

#24

Originally posted by Bamboo:
Злопыхательство затмевает глаза? См. йети на позиции 10 - 112 вхождений.

О, пора переходить на личности и начинать кулачный бой. Причем тут злопыхательство? Я указал, что система еще очень далека от совершенства. Превращение слова "йети" в "дети" не может произойти из-за опечатки (буквы на клавиатуре слишком далеко), произношение также разное, контексты, в которых эти слова встречаются, тоже не похожи. Поэтому вероятность ошибки такого рода ничтожна. Но если fuzzy-Punto этого еще не знает, значит, ему предстоит расти и расти. Логично?

Так что давайте не искать друг в друге "комплименты". Лучше потратить это время на совершенствование потенциально полезного инструмента.

С уважением,

Александр Садовский.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

37

Bamboo

26 декабря 2001, 16:42

#25

АС: О, пора переходить на личности и начинать кулачный бой. Причем тут злопыхательство?

Извините, мне показалось, что письмоВаше было эмоционално в ущерб конструктивности.

АС: Превращение слова "йети" в "дети" не может произойти из-за опечатки (буквы на клавиатуре слишком далеко), произношение также разное.

Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.

Мы с удовольствием примем конструктивную критику, тем более, что Вы Александр, как раз этим и сильны.

Как правильно написал Игорь Ашманов, чем короче слово, тем больше мусора в вариантах. Мы с этим уже весьма успешно боремся в AfterScan'e - чем короче слово, тем жестче отбор вариантов.

С уважением Сергей Москалев.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

357

euhenio

26 декабря 2001, 20:22

#26

itman: Есть еще и случай, когда "мусор" в голове, а правильное слово в инете. К тому же, опять-таки, вспомним про хеширование/хэширование. Еще пример на эту тему: названия городов (редкие). А это уже не совсем мусор.

Так что мы ищем не совсем с учетом опечаток. К тому же поисковая машина ДОЛЖНА искать с учетом опечаток, как миниуму, она должна предлагать варианты правильного написания, если запрос вернул мало документов.

______

Все-таки, непонятно, зачем реализовывать поиск опечаток в инете, а не в словаре. Конечно, СЕ должна искать с учетом опечаток, но после расширения запроса вариантами из словаря получим то же самое (А если словарь с тезаурусом, то можно и правильность варианта улучшить, учитывая остальные слова запроса). Словарь почти не растет, а Инет растет быстро => когда база Punto подрастет, такой поиск может быть уже неэффективен с т.зр. затрат времени.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 декабря 2001, 22:59

#27

Originally posted by euhenio:
Да никто и не пытается! :-) Речь идет исключительно о поиске похожих слов, пока
по крайней мере. Я совершенно согласен с тем, что в чистом виде, когда база большая
поиск с учетом похожих слов слишком сильно
шумит и может потребовать больших затрат.

______

Все-таки, непонятно, зачем реализовывать поиск опечаток в инете, а не в словаре. Конечно, СЕ должна искать с учетом опечаток, но после расширения запроса вариантами из словаря получим то же самое (А если словарь с тезаурусом, то можно и правильность варианта улучшить, учитывая остальные слова запроса). Словарь почти не растет, а Инет растет быстро => когда база Punto подрастет, такой поиск может быть уже неэффективен с т.зр. затрат времени.

AA

70

AlexA

27 декабря 2001, 00:04

#28

Originally posted by Ashmanov:
А зачем убиваться-то? Какой физический смысл этой функции для пользователя? разве что самому размяться, молодую силушку потешить.

Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

37

Bamboo

27 декабря 2001, 00:25

#29

Originally posted by AlexA:
Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, <1%). Стоит ли играть на таких малых величинах?

А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...

AA

70

AlexA

27 декабря 2001, 00:54

#30

Originally posted by Bamboo:
А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...

Не кипятитьтесь, коллега. Для справки: я, в свое время, тоже показывал Игорю свои наработки. И получил не меньше тумаков от него и его сотрудников. И это не отвратило меня от моих идей. И даже кое-что получается. Я думаю, что и Вы продолжите заниматься, несмотря на нашу критику (поверьте, весьма мягкую). А что касается цифр... так я вижу, на основании своего небольшого опыта (база текстов у нас - 7 млн. документов).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Все что нужно знать о DDоS-атаках грамотному менеджеру

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Punto.ru открылся раздел нечеткого поиска