Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)
Как писал wolf
Ну, как всегда, про самое интересное говорить не хотят. :) Зададим прямой вопрос. Андрей, правдали, что одним из этих самых других факторов с недавних пор является PageRank страницы? Яндекс, кстати, (надо отдать ему должное), когда ввел ВИЦ и ссылочное ранжирование, секрета из этого не делал.

В настоящий момент могу лишь ответить, что алгоритм PageRank нами сейчас не используется. О причинах распространяться, я думаю, нет смысла, так как канонический PageRank оценивает популярность ресурсов отнюдь не у пользователей, но у web-мастеров, а благодаря стараниям "оптимизаторов" :) даже эта характеристика уже стала смазанной.

Как писал mager
Не озвучите, Андрей, эти причины? Исходя из элементарных соображений логики и здравого смысла, результаты поиска по запросам, допустим, "создание сайта" и "создание сайтов" должны быть идентичны. А по логике Рамблера это два совершенно различных запроса.

С удовольствием, однако я, похоже, кое-где повторюсь.

Выдача из "основной" базы Рамблера упорядочивается по умолчанию (кроме специальных режимов) по убыванию суммарной меры соответствия совокупности документов на сайте запросу, которая складывается из релевантности, вычисляемой по собственно полнотекстовому индексу, и ряда других факторов, которые комментировать в настоящий момент я не хочу.

Выдача по top100 упорядочивается, в отличие от основной базы, не только по релевантности запросу, так как учитывается еще и посещаемость по данным счетчика, т. е. некоторая объективная характеристика популярности данной страницы. Такой баланс между этими факторами вычисления веса, как выставлен сейчас, кажется нам оптимальным. Не гарантирую, правда, что завтра нам не покажется иначе :)

С уважением, Андрей Коваленко,

компания Рамблер.

Как писал mager
в примеси из top100 предпочтение точной словоформе настолько велико, что невооруженным взглядом похоже на отсутствие морфологии

Да, совершенно верно. В top100 по ряду причин очень большое значение придается точному совпадению формы. Прежде всего потому, что примесь из top100 учитывает не только релевантность как таковую, но и популярность ресурса. Впрочем, и так понятно :)

С уважением, Андрей Коваленко,

компания Рамблер.

Как писал Varezhka
На Рамблере в разделе "Наша поисковая машина" гордо написано, что теперь они учитывают морфологию, а выдача по одному и тому же запросу в единственном числе и во множественном существенно различна.

"Теперь" - это с 2000 года, с января-февраля примерно :) И написано с тех же самых времен :)


Какая форма слова все-таки предпостительнее - единственное число или множественное? Г-н N (не помню кто) говорил на конференции, что множественная, потому что она "перекрывает" оба запроса, но для русского языка это не всегда так.

Предпочтительнее для чего? Для поиска, например, препарата "секнидазол" :) в аптеках логично дать запрос именно в этой форме, так как в прайс-листах обычно используется И. ед. Поиск же "секнидазола", скорее, выдаст первыми результаты его клинических испытаний и т. д.

С уважением, Андрей Коваленко,

компания Рамблер.

Как писал mager
Рамлер учитывает морфологию, но только в основной выдаче. В примеси из top100, которая занимает обычно первые места, морфология вроде тоже немного учитывается, но криво. То есть точные словоформы имеют гораздо больший вес. Из-за этого такая существенная разница в выдаче между словом в единственном и множественном числе.

Итак, а теперь, что называется, "из первых рук" :) Рамблер учитывает словоизменение русского и английского языков почти всегда, причем с использованием известного морфологического анализатора - фактически, промышленного стандарта (скромно так :)). "Почти" - потому что при поиске по запросам на точное вхождение фразы, запросам в кавычках, принимаются только точные вхождения.

Точное совпадение словоформ же имеет бОльший вес не только в выдаче из top100, но и в основной выдаче. Впрочем, тема эта уже не раз обсуждалась здесь (см. history), так что просто напомню, что речь шла о запросе "сера". Простой поиск с учетом словоизменения поведает о серых дилерах, да и вообще о цвете - по той причине, что "цвета" в Сети больше. Предпочтение же точному совпадению формы позволяет вытащить наверх химический элемент. В случае Рамблера - за счет такого предпочтения, в случае Google - за счет отсутствия морфологического анализа.

С уважением, Андрей Коваленко,

компания Рамблер.

... Остаётся запрограммировать.

Задача благородная, решенная уже не одним человеком, и достаточно трудоемкая. Если до сих пор не решали эту задачу, создание анализатора займет около человекогода. Если решали - за несколько месяцев можно справиться :)

Originally posted by AiK:
Есть ли "сравнительно честный" способ добится приемлемой индексации по "неинформативным" словам? Опять собственно проблемы с Рамблером.

Конечно, есть! Для начала поведаю Вам страшную тайну . Рамблер индексирует слово COM, как, впрочем, и ряд других так называемых "неинформативных" слов.

А потом напомню старую истину . "Если что-то не получается с третьего раза, посмотрите, наконец, инструкцию!". Взгляните на описание языка запросов Рамблера. И дайте соответствующий запрос...

Например, технология "COM", то есть обозначьте, что это слово для Вас важно!

С уважением, Андрей Коваленко,

Рамблер.

... на мой взгляд страница содержащая "компрессор" и "компрессоры" одинаково релевантны по отношению запроса "компрессор", ибо сложно предположить ситуацию в которой человек запрашивая что-то в единственном числе не подразумевает, что не плохо узнать о том же и во множественном числе.

Справедливое утверждение. А я Вам приведу контрпример. Допустив, вы ищете нашего дорогого и любимого Леонида Ильича... тьфу, точнее Владимира Владимировича :-) И вот по запросу "путин" поисковая система Вам для начала рассказывает о рыболовецких совхозах и прочих сейнерах, слегка пересыпая это рассказами о президенте РФ. Ведь это - косвенная форма слова "путина"

В случае же, если Вы даете больший вес точному совпадению формы, то ВВП уверенно побеждает :-) И таких примеров можно привести достаточно еще.

[This message has been edited by Keva (edited 31-01-2002).]

Уважаемый Евгений! Во-первых, большое вам спасибо за доброе слово в адрес Рамблера.

Во-вторых, выводы Вы делаете неправильные.

Originally posted by EugeneBee:
...
Яндекс и Апорт на запрос единственного и множественного числа существительного выдает одинаковые результаты поиска.
Честь ии за это и хвала!

Спорное утверждение. Вообще говоря, документ, содержащий слова запроса в тех же формах, однозначно лучше, чем документ, в котором слова запроса тоже есть, но в других формах.

А вот Рамблер и хваленый Гуугль разные. Причем зачастую абсолютно без совпадений.

В случае Рамблера множество найденных документов будет в точности то же. В случае Гугла - другое.

Что свидетельствует о том, что множественное число данные SE считают другим словом.

Утверждение однозначно ошибочное.

Рамблер понятно, но от Гуугля такого не ожидал.

Большое спасибо на добром слове

В случае Google, то есть неморфологической поисковой машины, действительно графически отличающиеся строки считаются разными словами.

В случае же Рамблера реализован алгоритм, повышающий вес тем документам, в которых есть точное совпадение формы слова с формой в запросе. Тем не менее ВСЕ документы, содержащие искомую лексему, будут найдены. Предложу Вам аналогию - повышение веса тех документов, в которых слова запроса реализовались в том же порядке. Например, запрос "украинская правда" и "правда украинская" дают одинаковый отклик, однако отранжированы документы будут также по-разному.

С уважением, Андрей Коваленко,

Рамблер.

Я тут провел некоторое тестирование на досуге. Суть методики такова.

Был взят некоторый большой текст на русском языке и заиндексирован как множество документов. Фактически, каждое слово этого документа считалось отдельным объектом.

Текст был заиндексирован двумя способами - с

точной лемматизацией и с вероятностным стеммингом. При вероятностном

стемминге запоминались все выделенные варианты основы слова. Соответственно,

был построен индекс текста по всем таким, как строгим, так и нестрогим

ключам.

Далее в первом варианте для всех лексем, присутствующих в индексе, были порождены все

графически различные формы, каждая из которых, независимо от того,

встретилась ли она сама в тексте или нет, подвергалась вероятностной

лемматизации, и построенные основы подавались на поиск. Результаты поиска по

всем формам точной лексемы объединялись, после чего результаты

суммировались. Третья величина вычислялась как пересечение списка найденных

по нестрогим основам идентификаторов с списком найденных по идентификатору

лексемы идентификаторов.

Вот результаты тестирования:

289117 objects at all

518875 objects (fuzzy)

289094 objects (correct)

Расшифровываю:

Полнота поиска: 289096 / 289117 = 0.9999 ~= 1.0

Шум: (518875.0 - 289117) / 289117 ~= 0.79

Точность поиска: 289094.0 / 518875 ~= 0.56

Модификация методики заключается в том, что поиск ведется не по всем формам, а по наиболее вероятным, то есть с

порождением формальных основ из наиболее вероятных форм. Тогда результаты - вот такие:

289117.000000 objects at all

405015.178310 objects (fuzzy)

235683.787824 objects (correct)

Полнота поиска: ~= 0.82

Шум: ~=0.40

Точность поиска: ~= 0.58

Вот такие вот есть результаты.

Всего: 238