Рамблер учитывает морфологию?

123 4
V
На сайте с 15.11.2002
Offline
1
5563

На Рамблере в разделе "Наша поисковая машина" гордо написано, что теперь они учитывают морфологию, а выдача по одному и тому же запросу в единственном числе и во множественном существенно различна. М?

Какая форма слова все-таки предпостительнее - единственное число или множественное? Г-н N (не помню кто) говорил на конференции, что множественная, потому что она "перекрывает" оба запроса, но для русского языка это не всегда так.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#1
Г-н N (не помню кто) говорил на конференции, что множественная, потому что она "перекрывает" оба запроса, но для русского языка это не всегда так.

Я это говорил. Это действительно хорошо работает, но там же Саша Садовский поправил - точное совпадение словоформы всегда считается более релевантным.

Т.е., при запросе с использованием множественного числа более релевантными будут считаться документы, в которых словоформа точно совпадает. Учет морфологии в данном случае означает, что по данному запросу будут найдены и документы, содержащие слова запроса в единственном числе. Отсутствие морфологии означало бы невозможность найти такие документы.

mager
На сайте с 06.07.2001
Offline
122
#2

Рамлер учитывает морфологию, но только в основной выдаче. В примеси из top100, которая занимает обычно первые места, морфология вроде тоже немного учитывается, но криво. То есть точные словоформы имеют гораздо больший вес. Из-за этого такая существенная разница в выдаче между словом в единственном и множественном числе.

Микс-Юни (http://mixmarket.biz/doc/partners/uni/overview/?from=mager_se) - агрегатор партнерских программ, более 150 программ в одном интерфейсе Russian Affiliate Days (http://affdays.ru) - первая конференция по маркетингу с оплатой за результат, 4-5 октября 2012 г.
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#3

Опять синхронно сработали :)

K
На сайте с 27.11.2000
Offline
80
#4
Как писал mager
Рамлер учитывает морфологию, но только в основной выдаче. В примеси из top100, которая занимает обычно первые места, морфология вроде тоже немного учитывается, но криво. То есть точные словоформы имеют гораздо больший вес. Из-за этого такая существенная разница в выдаче между словом в единственном и множественном числе.

Итак, а теперь, что называется, "из первых рук" :) Рамблер учитывает словоизменение русского и английского языков почти всегда, причем с использованием известного морфологического анализатора - фактически, промышленного стандарта (скромно так :)). "Почти" - потому что при поиске по запросам на точное вхождение фразы, запросам в кавычках, принимаются только точные вхождения.

Точное совпадение словоформ же имеет бОльший вес не только в выдаче из top100, но и в основной выдаче. Впрочем, тема эта уже не раз обсуждалась здесь (см. history), так что просто напомню, что речь шла о запросе "сера". Простой поиск с учетом словоизменения поведает о серых дилерах, да и вообще о цвете - по той причине, что "цвета" в Сети больше. Предпочтение же точному совпадению формы позволяет вытащить наверх химический элемент. В случае Рамблера - за счет такого предпочтения, в случае Google - за счет отсутствия морфологического анализа.

С уважением, Андрей Коваленко,

компания Рамблер.

С уважением, Андрей Коваленко aka Keva
K
На сайте с 27.11.2000
Offline
80
#5
Как писал Varezhka
На Рамблере в разделе "Наша поисковая машина" гордо написано, что теперь они учитывают морфологию, а выдача по одному и тому же запросу в единственном числе и во множественном существенно различна.

"Теперь" - это с 2000 года, с января-февраля примерно :) И написано с тех же самых времен :)


Какая форма слова все-таки предпостительнее - единственное число или множественное? Г-н N (не помню кто) говорил на конференции, что множественная, потому что она "перекрывает" оба запроса, но для русского языка это не всегда так.

Предпочтительнее для чего? Для поиска, например, препарата "секнидазол" :) в аптеках логично дать запрос именно в этой форме, так как в прайс-листах обычно используется И. ед. Поиск же "секнидазола", скорее, выдаст первыми результаты его клинических испытаний и т. д.

С уважением, Андрей Коваленко,

компания Рамблер.

mager
На сайте с 06.07.2001
Offline
122
#6
В случае Рамблера - за счет такого предпочтения, в случае Google - за счет отсутствия морфологического анализа

в примеси из top100 предпочтение точной словоформе настолько велико,

что невооруженным взглядом похоже на отсутствие морфологии

K
На сайте с 27.11.2000
Offline
80
#7
Как писал mager
в примеси из top100 предпочтение точной словоформе настолько велико, что невооруженным взглядом похоже на отсутствие морфологии

Да, совершенно верно. В top100 по ряду причин очень большое значение придается точному совпадению формы. Прежде всего потому, что примесь из top100 учитывает не только релевантность как таковую, но и популярность ресурса. Впрочем, и так понятно :)

С уважением, Андрей Коваленко,

компания Рамблер.

mager
На сайте с 06.07.2001
Offline
122
#8
Да, совершенно верно. В top100 по ряду причин очень большое значение придается точному совпадению формы.

Не озвучите, Андрей, эти причины? Исходя из элементарных соображений логики и здравого смысла, результаты поиска по запросам, допустим, "создание сайта" и "создание сайтов" должны быть идентичны. А по логике Рамблера это два совершенно различных запроса.

K
На сайте с 27.11.2000
Offline
80
#9
Как писал mager
Не озвучите, Андрей, эти причины? Исходя из элементарных соображений логики и здравого смысла, результаты поиска по запросам, допустим, "создание сайта" и "создание сайтов" должны быть идентичны. А по логике Рамблера это два совершенно различных запроса.

С удовольствием, однако я, похоже, кое-где повторюсь.

Выдача из "основной" базы Рамблера упорядочивается по умолчанию (кроме специальных режимов) по убыванию суммарной меры соответствия совокупности документов на сайте запросу, которая складывается из релевантности, вычисляемой по собственно полнотекстовому индексу, и ряда других факторов, которые комментировать в настоящий момент я не хочу.

Выдача по top100 упорядочивается, в отличие от основной базы, не только по релевантности запросу, так как учитывается еще и посещаемость по данным счетчика, т. е. некоторая объективная характеристика популярности данной страницы. Такой баланс между этими факторами вычисления веса, как выставлен сейчас, кажется нам оптимальным. Не гарантирую, правда, что завтра нам не покажется иначе :)

С уважением, Андрей Коваленко,

компания Рамблер.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#10
Такой баланс между этими факторами вычисления веса, как выставлен сейчас, кажется нам оптимальным. Не гарантирую, правда, что завтра нам не покажется иначе

Ну и нормально. Как и Илья говорил - "Мы руководствуемся своей волей при определении релевантности страницы запросу. Мы допускаем, что ваша воля тоже преследует благие намерения, но мы о ней ничего не знаем, а потому не доверяем ей."

2 ALL - я точно процитировал?

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий