Punto.ru открылся раздел нечеткого поиска

NW
На сайте с 10.07.2001
Offline
69
#11

Originally posted by itman:
Да мы просто периодически совершаем набеги на серверные яндекса с выгребанием жестких дисков :-)))

Уважаемый itman. Как Вы безусловно знаете, многие поисковки берут индексы у других ботов, ничего удивительного и/или смешного я тут не вижу.

Буду благодарен, если кто-то ответит всё-таки "по теме".

Maxim A. Ralnikovhttp://ralnikov.com
I
На сайте с 26.05.2001
Offline
64
#12

Скажем так - это вырожденный случай. Здесь важно не то, что она ИЩЕТ с учетом только одной формы, а что она МОЖЕТ искать с учетом грамматических форм и неточного соответствия запроса документу (в том смысле, что некоторых слов может не быть)

Originally posted by Vyacheslav Tikhonov:
Originally posted by itman:
С точки зрения этого определения ЛЮБАЯ поисковая машина осуществляет нечеткий поиск с ранжированием по функции близости.

То есть если поисковая машина осуществляет поиск только по одной форме слова, введенной пользователем (а расстояние Левенштайна здесь точно равно нулю ), это тоже нечеткий поиск?
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
I
На сайте с 26.05.2001
Offline
64
#13

Извините, может быть шутка была не очень уместна, но просто никакой Яндекс, Рамблер, итд... свою базу нам "дарить" не будет :-((.

Поэтому приходится, худо-бедно, самим по рунету ползать.

Originally posted by NightWing:
Originally posted by itman:
Да мы просто периодически совершаем набеги на серверные яндекса с выгребанием жестких дисков :-)))

Уважаемый itman. Как Вы безусловно знаете, многие поисковки берут индексы у других ботов, ничего удивительного и/или смешного я тут не вижу.
Буду благодарен, если кто-то ответит всё-таки "по теме".
F
На сайте с 15.11.2000
Offline
116
#14

Originally posted by Bamboo:
мы проверяем не только наличие опечаток или отсутствие букв, но также есть алгоритм проверки на ошибки письменные, слуховые. Ошибки типичные для русского человека при написании иностранных слов.

Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова. А вот "Гейтс" и "Йейтс" -- ну прямо близнецы! Я даже обознался раз, глядя на изображение йети -- то ли йети, то ли Йейтс. Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.

С уважением,

Александр Садовский.

euhenio
На сайте с 21.09.2001
Offline
357
#15

По запросу /капри/ страниц

punto - 551

yandex - 8801

y/p=16;

yandex ходит 2 раза в месяц,

=> punto ходит раз в 8 месяцев (max)

=> ждите, пока бот punto придет...

[This message has been edited by euhenio (edited 25-12-2001).]

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
VT
На сайте с 27.01.2001
Offline
130
#16

Originally posted by funsad:
Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова. А вот "Гейтс" и "Йейтс" -- ну прямо близнецы! Я даже обознался раз, глядя на изображение йети -- то ли йети, то ли Йейтс. Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.

Да нет, с этим как раз все понятно.

Просто в алгоритме, который использует Пунто, слово "йети" разбивается на буквосочетания из n-букв, например, для n=2 "йе","ет","ти" (называется n-грамматика). Затем идет поиск в словаре, организованном таким же образом и отсортированном в лексикографическом порядке, в результате чего найдены слова:

с|ети, д|ети, т|ети, л|ети, п|ети и т.д.

В исходном алгоритме, чтобы не возникало такой лажи, начало и конец слова должны помечаться маркерами й| и и|, но это, видимо, еще не сделано. К тому же, буквы "й" и "и" отождествляются, что дает дополнительный шум.

Ну а если я где-то не прав насчет того, как это работает, itman меня сейчас поправит.

AA
На сайте с 16.04.2001
Offline
70
#17

Игрушка хорошая, очень интересно. Но даже подсказчик правильного написания (нужен <1% случаев) сделать на этой основе непросто. Автомат будет то и дело врать, а неавтомат сложноват, на мой взгляд.

С уважением, Антонов Александр.
I
На сайте с 26.05.2001
Offline
64
#18

Просто сначала я сделал вариант "грубого" поиска, а теперь еще собираюсь сделать более тонкое ранжирование, которой таки варианты, как фуджицу и фуджитсу будет учитывать.

n-граммы здесь не причем поиск идет по количеству очепяток в чистом виде.

Originally posted by Vyacheslav Tikhonov:
Originally posted by funsad:
Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова. А вот "Гейтс" и "Йейтс" -- ну прямо близнецы! Я даже обознался раз, глядя на изображение йети -- то ли йети, то ли Йейтс. Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.

Да нет, с этим как раз все понятно.
Просто в алгоритме, который использует Пунто, слово "йети" разбивается на буквосочетания из n-букв, например, для n=2 "йе","ет","ти" (называется n-грамматика). Затем идет поиск в словаре, организованном таким же образом и отсортированном в лексикографическом порядке, в результате чего найдены слова:
с|ети, д|ети, т|ети, л|ети, п|ети и т.д.
В исходном алгоритме, чтобы не возникало такой лажи, начало и конец слова должны помечаться маркерами й| и и|, но это, видимо, еще не сделано. К тому же, буквы "й" и "и" отождествляются, что дает дополнительный шум.
Ну а если я где-то не прав насчет того, как это работает, itman меня сейчас поправит.
I
На сайте с 26.05.2001
Offline
64
#19

К тому же, фуджитсу и фуджицу - не совсем непохожие слова, как несложно видеть

Originally posted by itman:
Просто сначала я сделал вариант "грубого" поиска, а теперь еще собираюсь сделать более тонкое ранжирование, которой таки варианты, как фуджицу и фуджитсу будет учитывать.

n-граммы здесь не причем поиск идет по количеству очепяток в чистом виде.

I
На сайте с 26.05.2001
Offline
64
#20

n

Originally posted by euhenio:
По запросу /капри/ страниц
punto - 551
yandex - 8801

y/p=16;
yandex ходит 2 раза в месяц,
=> punto ходит раз в 8 месяцев (max)

соотношение говорит о размере базы, а не
о скорости обхода. все-таки 8 месяцев макс.
это несколько пессиместично.

=> ждите, пока бот punto придет...


[This message has been edited by euhenio (edited 25-12-2001).]

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий