Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)

<font face="Verdana" size="2">Originally posted by tsv:
Yandex в последнее время постоянно "колбасит", потому что вес
...
в конце концов таки подберут. Перед Rambler у них есть 3 огромных преимущества:

1. Скорость переиндексации. &lt;skip&gt;

2. Морфология русского языка. Без комментариев.

А поиск Ramblerа ... как был поиском Ramblerа , так и остался. &lt;skip&gt;

</font>

Яndex "колбасит", как вы изволили выразиться, не больше и не меньше, чем кого-либо еще - это, действительно, нормальный процесс разработки.

Насчет того, что "вес" ссылочного ранжирования в конце концов подберут, у меня нет сомнений.

Но только не надо путать PageRank и ссылочное ранжирование - это, как говорят в Одессе, - "две большие разницы". Поинтересуйтесь на досуге у Ильи или, скажем, посмотрите этот форум повнимательнее. PageRank - алгоритм вычисления "авторитетности", или популярности, некого ресурса среди web-мастеров, и не более того. Ссылочный же поиск и ранжирование - это поиск прежде всего по текстам ссылок, кои являются своего рода аннотациями докамента.

Насчет скорости переиндексирования я с Вами абсолютно согласен. Этот пункт уже прокомментировал Влад Шабанов - мне нечего добавить.

А вот насчет морфологии - это Вы попали пальцем, пардон, в ж... В Рамблере уже довольно давно - около года - работает морфологический анализатор, на клонах которого были построены Апорт, back-office Гарант-Парка, МедиаЛингвы и ряд других коммерческих продуктов. В общем, анализатор, который практически стал стандартом де-факто. Так что либо Вы как минимум год не пользовались Рамблером (тогда удивляет сам факт высказываний на эту тему), либо не очень хорошо представляете себе понятие морфологического анализа.

С уважением, Андрей Коваленко.

<font face="Verdana" size="2">Originally posted by mager:
ИМХО как ни крути, а без реализации Page Rank Рамблер из нынешнего болота не выберется.
Адекватность PR уже доказана на примере Яндекса и Апорта, а интеграция с Top100 себя
дискредитировала дальше некуда.
</font>

Будучи разработчиком поисковой машины Рамблера, выскажу свое мнение, которое может не совпадать с официальной точкой зрения компании

Утверждение об "адекватности PageRank" - голословное, и уж тем более Яndex никак его не "доказывает" Более того, по моему мнению, качество поиска Яndex'а несколько ухудшилось после того, как Илья начал использовать ссылочное ранжирование.

Что же касается интеграции с top100 - тут вопрос откровенно спорный. В некоторых случаях "подмешивание" top100 резко увеличивает релевантность первой страницы, в некоторых - как тут проскакивал пример со словом "работа" - портит картину.

<font face="Verdana" size="2">Originally posted by mager:
Сегодня Рамблер превзошёл сам себя...
</font>

Да, вы совершенно правы :-) Мы сейчас этой проблемой уже занимаемся.

С уважением, Андрей Коваленко, компания "Рамблер".

<font face="Verdana" size="2">Originally posted by baranov:

...
Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.
</font>

Ты знаешь, есть несколько способов, а именно - много , организовать словарь. Я использую описанное на сайте дерево (кстати, через пару лет после того, как я сделал этот анализатор, такой подход был описан какими-то итальянцами или испанцами).

Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.

Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.

<font face="Verdana" size="2">Originally posted by baranov:

...
Пока что я доделываю поиск по словарю с обычным бинарным деревом думаю что тормозить сильно не будет... но лингвистикой конечно такие "математические" алгоритмы не очень дружат.
</font>

Ты знаешь, есть несколько способов, а именно - много , организовать словарь. Я использую описанное на сайте дерево (кстати, через пару лет после того, как я сделал этот анализатор, такой подход был описан какими-то итальянцами или испанцами).

Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.

Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.

<font face="Verdana" size="2">Originally posted by baranov:
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)
</font>

Бывает-бывает

Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.

<font face="Verdana" size="2">Originally posted by baranov:
Так не бывает
а такой вопрос - на сколько он быстро работает? (к чему стремиться)
</font>

Бывает-бывает

Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Originally posted by baranov:
Здорово все....
А есть ли менее комерческие реализации?
или более простые решения - по типу того, что я говорил - отбрасывать окончания и возможно суффикс за компанию....
</font>

Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) Хотя у меня их много. Например, "скотоложство" :-)

Кстати, посмотрел твою морфологию по ссылке. Работает, однако подтверждает твои слова о том, что это - куча хлопот и времени. Я свой нынешний любимый запрос скормил туда - и получил формы множественного числа, т. е. "скотоложствами" :-)

Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)

А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Originally posted by baranov:
Здорово все....
А есть ли менее комерческие реализации?
или более простые решения - по типу того, что я говорил - отбрасывать окончания и возможно суффикс за компанию....
</font>

Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.
В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) Хотя у меня их много. Например, "скотоложство" :-)

Кстати, посмотрел твою морфологию по ссылке. Работает, однако подтверждает твои слова о том, что это - куча хлопот и времени. Я свой нынешний любимый запрос скормил туда - и получил формы множественного числа, т. е. "скотоложствами" :-)

Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)

А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))

<font face="Verdana" size="2">Originally posted by baranov:
Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....
Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.

правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....
</font>

Действительно с автором :-) А под некоммерческим использованием надо понимать использование в исследовательских и научных целях или в некоммерческих продуктах. Например, если Вы хотите выставить свой продукт, использующий этот морфоанализатор, в Сеть, то на этих страницах не должно быть баннеров :-) Короче, никакого извлечения денег :-)

Всего: 238