Да мы просто периодически совершаем набеги на серверные яндекса с выгребанием жестких дисков :-)))
Нет, в истории мы входить не спешим: просто обычно поисковик использует "маленький" спелл-чекер, то есть словарь спелл-чекера ограничен словами, для которых ивестны их грамматические формы.
Таких слов тысяч 300. Интереснее было бы иметь "большой" спелл-чекер - на весь словарь поисковой машины.
Это на случай, если не знаешь, например название лекарства. Я уже, даже, сам воспользовался. Записал название, а ссылок по нему нашел с гулькин нос. Оказалось, что спутал а с о, или что-то в этом духе. Никакой яндексовский спелл-чекер, разумеется, ничего мне не сказал, потому что его словарь лекарства не включает, а раздел punto - fuzzy помог его найти.
Раздел можно также использовать для поиска наиболее вероятных написаний пришедших к нам зарубежных слов: терминов, названий груп, итд..
Это нужно не часто, но иногда - полезно. А TREC, как несложно видеть, не слишком подходит для РУНЕТА, потому что объем документов большой, и шум от нечеткого поиска велик. А вот если действовать более тонко: то есть "включать" его только для запросов, выдавших малое количество результатов, то можно иногда приятно порадовать пользователя.
Например: ищется какая-то цитата, в которой есть слово "хеширование". Это слово, как известно, в русском каждый пишет, как ему нравится. В результате поиска нашлось мало и не то, потому что на нужной паге слово было хэширование, через э.
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.
Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?
А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю
Блин, я не сразу понял, что клоачный - значит, полученные в результате клоакинга. Вот он - могучий и великий русский язык!
Хотя невидимые ключевые слова дают тот же результат и скрыться от показа найденных ключевых слов, опять-таки никак нельзя.
Посему мой совет: привлекать пользователей не с помощью ключевых слов, пороно, знакомство итд, а такие пользователи свалят сразу же, как только увидят, что что-то не так, а с помощью рекламы в разных электронных СМИ.
поясни, с чего ты взял что там должен быть robots.txt
>Когда можно будет увидеть объемы, сравнимые >с Яндексом/Рамблером?
Объемы сравнимые с Рамблером МОЖНО будет увидеть.
>И добавить свой сайт?
это и сейчас работает, причем в произволной зоне... должно работать.
Рунет - это не только зона "RU" !
Сегодня-завтра будет и не только зона..
А ведь если внимательно приглядется к их поиску, то понимаешь, что сделано у Punto уже много чего интересного. Чего только стоит нечеткий (fuzzy) поиск! Попробуйте сделать опечатку (к примеру, пропустить букву "о" в запросе "поисквые машины") и система автоматически определит "поисковые" и предложит поискать с исправленной ошибкой.
Конечно, это уже давно есть в Яндексе, но все же
Насчет давно, это, кажется, 2 недели. Кстати, что вы думаете по поводу возможности более расширенного нечеткого поиска: поиск слов в базе слов по маске + задание количества опечаток с выдачей статистики, итд... По-моему определенным категориям польователей была бы интересна такая возможность.
Девиз: Пунто - в точку! :-))
По-крайней мере, так задумывалось.