Bamboo

Рейтинг
37
Регистрация
19.05.2001

Уважаемый Игорь! Спасибо что вступились за "нечеткий поиск". Кстати посмотрели манифест безграмотности обработали его AfterScan'ом все искусственные, намеренные ошибки вылезли сразу. У нас, вообще, есть коллекция смешных вариантов предлагаемых спелчекером на замену. Вот несколько:

Военно-Полевой=Военно-Половой

Волжско-Камская=Волжско-Хамская

Вич-Инфекцию=Кич-Инфекцию

джаз-бэндами=джаз-бандами

Засулич=Засучил

Жар-Птица=Жир-Птица

Курочка-Ряба=Курочка-Раба

народно-поэтическом=народно-неэтическом

рок-певцов=рои-певцов

почил в бозе=почил в бесе

Скажем, "дети" встречается в Яндексе 3794631 раз, а "йети" -- 5516. Даже если считать "йети" неверным написанием слова "дети", то получается, что ошибку делают в одном из 689 случаев.

Уважаемый Александр,

полностью с Вами согласен, единственно, в ваших рассчетах есть незначительная ошибка.

"Дети" естественно нормализованы, а "йети" нет. так что вероятность 1 к 200, скорее чем к 600.

Ba

Originally posted by tsv:
Дык самим поисковиком не пользуется никто. И движок у них к спаму неустойчивый, надо сказать. Точнее даже не к спаму, а к дорвеям вообще. Поупается он на них уж больно просто. Я ему один свой как-то скормил несколько месяцев назад. И еще дал несколько доменных имен, но того же самого дорвей домена. Для проверки поисковика на вшивость. Оказался вшивый <IMG SRC="" border=0>

По спайлогу в разделе поисковиков на 5 месте Punto стоит... Попробуйте запрос "Толстой" в четырех поисковках Апорт, Пунто, Рамблер и Яндекс. И почувствуйте разницу!

Originally posted by AlexA:
Здесь с уважаемым Игорем Станиславовичем не согласиться трудно. Идея понятна: взять работающий инструмент (AferScan) и приспособить его для решения другой задачи. Полезность же этой конкретной реализации оценена: 2% (С Ашманов, по-моему, &lt;1%). Стоит ли играть на таких малых величинах?

А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...

АС: О, пора переходить на личности и начинать кулачный бой. Причем тут злопыхательство?

Извините, мне показалось, что письмоВаше было эмоционално в ущерб конструктивности.

АС: Превращение слова "йети" в "дети" не может произойти из-за опечатки (буквы на клавиатуре слишком далеко), произношение также разное.

Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.

Мы с удовольствием примем конструктивную критику, тем более, что Вы Александр, как раз этим и сильны.

Как правильно написал Игорь Ашманов, чем короче слово, тем больше мусора в вариантах. Мы с этим уже весьма успешно боремся в AfterScan'e - чем короче слово, тем жестче отбор вариантов.

С уважением Сергей Москалев.

АС: Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова.

Спсибо поправим.

АС: Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.

Злопыхательство затмевает глаза? См. йети на позиции 10 - 112 вхождений.

ИА: 1. К нечёткому поиску данная функция имеет только маркетинговое отношение. В чём же тут нечёткость? Это обычный поиск по шаблону (с wildcards).

Нет Игорь тут Вы не правы. Это не просто поиск по шаблону, мы проверяем не только наличие опечаток или отсутствие букв, но также есть алгоритм проверки на ошибки письменные, слуховые. Ошибки типичные для русского человека при написании иностранных слов.

ИА: 2. Пунто - далеко не первый поисковик, который работает с опечатками, транслитерированием

И тут вынужден вас огорчить! Punto работает с транслитирированием с 10 апреля 2001 года это на месяц раньше чем Яндекс!

Одним из основных назначений нечеткого поиска является определение пользователем вероятности написания слова, когда имеются сомнения. Пример:

грегорианский или григорианский

Еще одно важное применений когда в длинном слове человек помнит начало и конец или только начало. Пример:

дидецилдиметиламмоний

разве Яндекс или Апорт выдадут в виде подсказки - дидецилдиметиламмонийхлорид?

Мы на punto.ru считаем тайтлом только первые 60 знаков. Все остальное как правило спам.

<font face="Verdana" size="2">Originally posted by Green Peace:
Как к этому относятся Rambler & Yandex?</font>

Punto.ru - учитывает регистр, но только первой буквы. То есть, "толстой" не равно "Толстой"

<font face="Verdana" size="2">Originally posted by iseg:
Да ладно, чего там. Дело нехитрое.

Берем N редких слов (чтобы было легко проверить весь результат).
Делаем запросы - очень удобно из нашего Я-Бара, там все перечисленные
товарищи фигурируют. Перед этим надо еще
</font>

Вопрос. Искали по точному совпадению или во всех формах? Если не по точному совпадению тогда результаты неправильные. Google не склоняет. И прочие машины склоняют все по разному иногда неправильно и эти неправильные вхождения тоже можно посчитать.

Итак Илья, по точному совпадению?

12
Всего: 13