itman

Рейтинг
64
Регистрация
26.05.2001

Originally posted by NightWing:
Коллеги, а каким user agent'ом и с каких IPх ходит пунто? А то что-то я ничего подобного не находил в логах сервера... Или они берут индексы у других ботов?

Да мы просто периодически совершаем набеги на серверные яндекса с выгребанием жестких дисков :-)))

Originally posted by Vyacheslav Tikhonov:
Originally posted by itman:
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.

По-видимому, у вас с Игорем Ашмановым разные представления о нечетком поиске.

Совсем необязательно. Просто нечеткий поиск нечеткому поиску рознь. В самом общем и абстрактном виде: есть набор документов, есть поисковый шаблон, есть понятие функции близости найденного документа поисковому шаблону.

С точки зрения этого определения ЛЮБАЯ поисковая машина осуществляет нечеткий поиск с ранжированием по функции близости.

А тот раздел, который открылся на сайте подразумевает только поиск по сходству в словаре поисковой машины, то бишь, поиск слов с опечатками, ошибками, и слов неизвестного написания.

В соответствии с определением, пользователь может задавать различные типы поискового шаблона и вводить максимально допустимое количество опечаток.

Кстати, обращаясь к классике, это ближе работам Левенштайна, Юкконена, Манбера и множества других авторов.

В дальнейшем в качестве улучшения качества словарно поиска, опять-таки мы планируем улучшить функцию ранжирования (чтобы, грубо говоря, замена а на о имела меньший вес).

Нет, в истории мы входить не спешим: просто обычно поисковик использует "маленький" спелл-чекер, то есть словарь спелл-чекера ограничен словами, для которых ивестны их грамматические формы.

Таких слов тысяч 300. Интереснее было бы иметь "большой" спелл-чекер - на весь словарь поисковой машины.

Это на случай, если не знаешь, например название лекарства. Я уже, даже, сам воспользовался. Записал название, а ссылок по нему нашел с гулькин нос. Оказалось, что спутал а с о, или что-то в этом духе. Никакой яндексовский спелл-чекер, разумеется, ничего мне не сказал, потому что его словарь лекарства не включает, а раздел punto - fuzzy помог его найти.

Раздел можно также использовать для поиска наиболее вероятных написаний пришедших к нам зарубежных слов: терминов, названий груп, итд..

Это нужно не часто, но иногда - полезно. А TREC, как несложно видеть, не слишком подходит для РУНЕТА, потому что объем документов большой, и шум от нечеткого поиска велик. А вот если действовать более тонко: то есть "включать" его только для запросов, выдавших малое количество результатов, то можно иногда приятно порадовать пользователя.

Например: ищется какая-то цитата, в которой есть слово "хеширование". Это слово, как известно, в русском каждый пишет, как ему нравится. В результате поиска нашлось мало и не то, потому что на нужной паге слово было хэширование, через э.

Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.

Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?

А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю

Originally posted by Vyacheslav Tikhonov:
Originally posted by Bamboo:
На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy

Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".

Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?
А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю

<font face="Verdana" size="2">Originally posted by shoom:
Нет, не вдаваясь в то что такое клоакинг, скажу что робот индексирует одну пагу(релевантную), а пользователь по ссылке с поисковика попадает на другую (нормальную), таким образом невидимые тексты ни причём.</font>

Блин, я не сразу понял, что клоачный - значит, полученные в результате клоакинга. Вот он - могучий и великий русский язык!

Хотя невидимые ключевые слова дают тот же результат и скрыться от показа найденных ключевых слов, опять-таки никак нельзя.

Посему мой совет: привлекать пользователей не с помощью ключевых слов, пороно, знакомство итд, а такие пользователи свалят сразу же, как только увидят, что что-то не так, а с помощью рекламы в разных электронных СМИ.

Originally posted by shoom:
Будьте добры ответьте на вопрос или покрайне мере приведите свои рассуждения на тему:
У меня на сайте стоит клоачный скрипт, Яндекс правильно обрабатывает релевантную заготовку, но когда пользователь нажимает "показать найденные слова" Яндекс честно ему показывает набор слов, я бы не хотел чтобы так открыто просматривался обман, как укрыться от "показа найденных слов"?

То есть ты хочешь сказать, что у тебя на сайте невидимым шрифтом набраны слова: порно, реферат, знакомства, Москва, Россия, Интернет итд в немерянных количествах, и ты не хочешь, чтобы пользователь, попадая на твою страничку видел по каким "клоачным" ключевым словам он к тебе попал?

<font face="Verdana" size="2">Originally posted by Tartaren:
на punto.ru отсутствует robots.txt неправильно это )</font>

поясни, с чего ты взял что там должен быть robots.txt

&gt;Когда можно будет увидеть объемы, сравнимые &gt;с Яндексом/Рамблером?

Объемы сравнимые с Рамблером МОЖНО будет увидеть.

&gt;И добавить свой сайт?

это и сейчас работает, причем в произволной зоне... должно работать.

Рунет - это не только зона "RU" !

Сегодня-завтра будет и не только зона..

А ведь если внимательно приглядется к их поиску, то понимаешь, что сделано у Punto уже много чего интересного. Чего только стоит нечеткий (fuzzy) поиск! Попробуйте сделать опечатку (к примеру, пропустить букву "о" в запросе "поисквые машины") и система автоматически определит "поисковые" и предложит поискать с исправленной ошибкой.

Конечно, это уже давно есть в Яндексе, но все же

Насчет давно, это, кажется, 2 недели. Кстати, что вы думаете по поводу возможности более расширенного нечеткого поиска: поиск слов в базе слов по маске + задание количества опечаток с выдачей статистики, итд... По-моему определенным категориям польователей была бы интересна такая возможность.

<font face="Verdana" size="2">Originally posted by Nicholas:
Только что узнал, что Punto(исп.) -- точка!
Т.е. получается Точка.ру!?
</font>

Девиз: Пунто - в точку! :-))

По-крайней мере, так задумывалось.

Всего: 444