В настоящий момент могу лишь ответить, что алгоритм PageRank нами сейчас не используется. О причинах распространяться, я думаю, нет смысла, так как канонический PageRank оценивает популярность ресурсов отнюдь не у пользователей, но у web-мастеров, а благодаря стараниям "оптимизаторов" :) даже эта характеристика уже стала смазанной.
С удовольствием, однако я, похоже, кое-где повторюсь.
Выдача из "основной" базы Рамблера упорядочивается по умолчанию (кроме специальных режимов) по убыванию суммарной меры соответствия совокупности документов на сайте запросу, которая складывается из релевантности, вычисляемой по собственно полнотекстовому индексу, и ряда других факторов, которые комментировать в настоящий момент я не хочу.
Выдача по top100 упорядочивается, в отличие от основной базы, не только по релевантности запросу, так как учитывается еще и посещаемость по данным счетчика, т. е. некоторая объективная характеристика популярности данной страницы. Такой баланс между этими факторами вычисления веса, как выставлен сейчас, кажется нам оптимальным. Не гарантирую, правда, что завтра нам не покажется иначе :)
С уважением, Андрей Коваленко,
компания Рамблер.
Да, совершенно верно. В top100 по ряду причин очень большое значение придается точному совпадению формы. Прежде всего потому, что примесь из top100 учитывает не только релевантность как таковую, но и популярность ресурса. Впрочем, и так понятно :)
"Теперь" - это с 2000 года, с января-февраля примерно :) И написано с тех же самых времен :)
Предпочтительнее для чего? Для поиска, например, препарата "секнидазол" :) в аптеках логично дать запрос именно в этой форме, так как в прайс-листах обычно используется И. ед. Поиск же "секнидазола", скорее, выдаст первыми результаты его клинических испытаний и т. д.
Итак, а теперь, что называется, "из первых рук" :) Рамблер учитывает словоизменение русского и английского языков почти всегда, причем с использованием известного морфологического анализатора - фактически, промышленного стандарта (скромно так :)). "Почти" - потому что при поиске по запросам на точное вхождение фразы, запросам в кавычках, принимаются только точные вхождения.
Точное совпадение словоформ же имеет бОльший вес не только в выдаче из top100, но и в основной выдаче. Впрочем, тема эта уже не раз обсуждалась здесь (см. history), так что просто напомню, что речь шла о запросе "сера". Простой поиск с учетом словоизменения поведает о серых дилерах, да и вообще о цвете - по той причине, что "цвета" в Сети больше. Предпочтение же точному совпадению формы позволяет вытащить наверх химический элемент. В случае Рамблера - за счет такого предпочтения, в случае Google - за счет отсутствия морфологического анализа.
Задача благородная, решенная уже не одним человеком, и достаточно трудоемкая. Если до сих пор не решали эту задачу, создание анализатора займет около человекогода. Если решали - за несколько месяцев можно справиться :)
Конечно, есть! Для начала поведаю Вам страшную тайну . Рамблер индексирует слово COM, как, впрочем, и ряд других так называемых "неинформативных" слов.
А потом напомню старую истину . "Если что-то не получается с третьего раза, посмотрите, наконец, инструкцию!". Взгляните на описание языка запросов Рамблера. И дайте соответствующий запрос...
Например, технология "COM", то есть обозначьте, что это слово для Вас важно!
Рамблер.
... на мой взгляд страница содержащая "компрессор" и "компрессоры" одинаково релевантны по отношению запроса "компрессор", ибо сложно предположить ситуацию в которой человек запрашивая что-то в единственном числе не подразумевает, что не плохо узнать о том же и во множественном числе.
Справедливое утверждение. А я Вам приведу контрпример. Допустив, вы ищете нашего дорогого и любимого Леонида Ильича... тьфу, точнее Владимира Владимировича :-) И вот по запросу "путин" поисковая система Вам для начала рассказывает о рыболовецких совхозах и прочих сейнерах, слегка пересыпая это рассказами о президенте РФ. Ведь это - косвенная форма слова "путина"
В случае же, если Вы даете больший вес точному совпадению формы, то ВВП уверенно побеждает :-) И таких примеров можно привести достаточно еще.
[This message has been edited by Keva (edited 31-01-2002).]
Уважаемый Евгений! Во-первых, большое вам спасибо за доброе слово в адрес Рамблера.
Во-вторых, выводы Вы делаете неправильные.
Спорное утверждение. Вообще говоря, документ, содержащий слова запроса в тех же формах, однозначно лучше, чем документ, в котором слова запроса тоже есть, но в других формах.
А вот Рамблер и хваленый Гуугль разные. Причем зачастую абсолютно без совпадений.
В случае Рамблера множество найденных документов будет в точности то же. В случае Гугла - другое.
Что свидетельствует о том, что множественное число данные SE считают другим словом.
Утверждение однозначно ошибочное.
Рамблер понятно, но от Гуугля такого не ожидал.
Большое спасибо на добром слове
В случае Google, то есть неморфологической поисковой машины, действительно графически отличающиеся строки считаются разными словами.
В случае же Рамблера реализован алгоритм, повышающий вес тем документам, в которых есть точное совпадение формы слова с формой в запросе. Тем не менее ВСЕ документы, содержащие искомую лексему, будут найдены. Предложу Вам аналогию - повышение веса тех документов, в которых слова запроса реализовались в том же порядке. Например, запрос "украинская правда" и "правда украинская" дают одинаковый отклик, однако отранжированы документы будут также по-разному.
Я тут провел некоторое тестирование на досуге. Суть методики такова.
Был взят некоторый большой текст на русском языке и заиндексирован как множество документов. Фактически, каждое слово этого документа считалось отдельным объектом.
Текст был заиндексирован двумя способами - с
точной лемматизацией и с вероятностным стеммингом. При вероятностном
стемминге запоминались все выделенные варианты основы слова. Соответственно,
был построен индекс текста по всем таким, как строгим, так и нестрогим
ключам.
Далее в первом варианте для всех лексем, присутствующих в индексе, были порождены все
графически различные формы, каждая из которых, независимо от того,
встретилась ли она сама в тексте или нет, подвергалась вероятностной
лемматизации, и построенные основы подавались на поиск. Результаты поиска по
всем формам точной лексемы объединялись, после чего результаты
суммировались. Третья величина вычислялась как пересечение списка найденных
по нестрогим основам идентификаторов с списком найденных по идентификатору
лексемы идентификаторов.
Вот результаты тестирования:
289117 objects at all
518875 objects (fuzzy)
289094 objects (correct)
Расшифровываю:
Полнота поиска: 289096 / 289117 = 0.9999 ~= 1.0
Шум: (518875.0 - 289117) / 289117 ~= 0.79
Точность поиска: 289094.0 / 518875 ~= 0.56
Модификация методики заключается в том, что поиск ведется не по всем формам, а по наиболее вероятным, то есть с
порождением формальных основ из наиболее вероятных форм. Тогда результаты - вот такие:
289117.000000 objects at all
405015.178310 objects (fuzzy)
235683.787824 objects (correct)
Полнота поиска: ~= 0.82
Шум: ~=0.40
Точность поиска: ~= 0.58
Вот такие вот есть результаты.