Уважаемый Игорь! Спасибо что вступились за "нечеткий поиск". Кстати посмотрели манифест безграмотности обработали его AfterScan'ом все искусственные, намеренные ошибки вылезли сразу. У нас, вообще, есть коллекция смешных вариантов предлагаемых спелчекером на замену. Вот несколько:
Военно-Полевой=Военно-Половой
Волжско-Камская=Волжско-Хамская
Вич-Инфекцию=Кич-Инфекцию
джаз-бэндами=джаз-бандами
Засулич=Засучил
Жар-Птица=Жир-Птица
Курочка-Ряба=Курочка-Раба
народно-поэтическом=народно-неэтическом
рок-певцов=рои-певцов
почил в бозе=почил в бесе
Уважаемый Александр,
полностью с Вами согласен, единственно, в ваших рассчетах есть незначительная ошибка.
"Дети" естественно нормализованы, а "йети" нет. так что вероятность 1 к 200, скорее чем к 600.
Ba
А Вы правы!!! Лучше вообще ничего не далать! )) Это логика юзера, который думает, что все как-то появляется само собой! Он так бы сам делать не стал. ) Умиляет расчет процентов в вышеприведенной цитате...
АС: О, пора переходить на личности и начинать кулачный бой. Причем тут злопыхательство?
Извините, мне показалось, что письмоВаше было эмоционално в ущерб конструктивности.
АС: Превращение слова "йети" в "дети" не может произойти из-за опечатки (буквы на клавиатуре слишком далеко), произношение также разное.
Беда происходит, так как мы ранжируем пока по частоте вхождений, что неправильно. В Вашем примере слово дети не должно стоять на первом месте.
Мы с удовольствием примем конструктивную критику, тем более, что Вы Александр, как раз этим и сильны.
Как правильно написал Игорь Ашманов, чем короче слово, тем больше мусора в вариантах. Мы с этим уже весьма успешно боремся в AfterScan'e - чем короче слово, тем жестче отбор вариантов.
С уважением Сергей Москалев.
АС: Оказывается, "фуджицу" и "фуджитсу" -- совсем непохожие слова.
Спсибо поправим.
АС: Кстати, не ищите "йети" в Punto, там обитают лишь "сети", "дети", "тети", "лети", "пети" и другие загадочные создания.
Злопыхательство затмевает глаза? См. йети на позиции 10 - 112 вхождений.
ИА: 1. К нечёткому поиску данная функция имеет только маркетинговое отношение. В чём же тут нечёткость? Это обычный поиск по шаблону (с wildcards).
Нет Игорь тут Вы не правы. Это не просто поиск по шаблону, мы проверяем не только наличие опечаток или отсутствие букв, но также есть алгоритм проверки на ошибки письменные, слуховые. Ошибки типичные для русского человека при написании иностранных слов.
ИА: 2. Пунто - далеко не первый поисковик, который работает с опечатками, транслитерированием
И тут вынужден вас огорчить! Punto работает с транслитирированием с 10 апреля 2001 года это на месяц раньше чем Яндекс!
Одним из основных назначений нечеткого поиска является определение пользователем вероятности написания слова, когда имеются сомнения. Пример:
грегорианский или григорианский
Еще одно важное применений когда в длинном слове человек помнит начало и конец или только начало. Пример:
дидецилдиметиламмоний
разве Яндекс или Апорт выдадут в виде подсказки - дидецилдиметиламмонийхлорид?
Мы на punto.ru считаем тайтлом только первые 60 знаков. Все остальное как правило спам.
Punto.ru - учитывает регистр, но только первой буквы. То есть, "толстой" не равно "Толстой"
Вопрос. Искали по точному совпадению или во всех формах? Если не по точному совпадению тогда результаты неправильные. Google не склоняет. И прочие машины склоняют все по разному иногда неправильно и эти неправильные вхождения тоже можно посчитать.
Итак Илья, по точному совпадению?