Яndex "колбасит", как вы изволили выразиться, не больше и не меньше, чем кого-либо еще - это, действительно, нормальный процесс разработки.
Насчет того, что "вес" ссылочного ранжирования в конце концов подберут, у меня нет сомнений.
Но только не надо путать PageRank и ссылочное ранжирование - это, как говорят в Одессе, - "две большие разницы". Поинтересуйтесь на досуге у Ильи или, скажем, посмотрите этот форум повнимательнее. PageRank - алгоритм вычисления "авторитетности", или популярности, некого ресурса среди web-мастеров, и не более того. Ссылочный же поиск и ранжирование - это поиск прежде всего по текстам ссылок, кои являются своего рода аннотациями докамента.
Насчет скорости переиндексирования я с Вами абсолютно согласен. Этот пункт уже прокомментировал Влад Шабанов - мне нечего добавить.
А вот насчет морфологии - это Вы попали пальцем, пардон, в ж... В Рамблере уже довольно давно - около года - работает морфологический анализатор, на клонах которого были построены Апорт, back-office Гарант-Парка, МедиаЛингвы и ряд других коммерческих продуктов. В общем, анализатор, который практически стал стандартом де-факто. Так что либо Вы как минимум год не пользовались Рамблером (тогда удивляет сам факт высказываний на эту тему), либо не очень хорошо представляете себе понятие морфологического анализа.
С уважением, Андрей Коваленко.
Будучи разработчиком поисковой машины Рамблера, выскажу свое мнение, которое может не совпадать с официальной точкой зрения компании
Утверждение об "адекватности PageRank" - голословное, и уж тем более Яndex никак его не "доказывает" Более того, по моему мнению, качество поиска Яndex'а несколько ухудшилось после того, как Илья начал использовать ссылочное ранжирование.
Что же касается интеграции с top100 - тут вопрос откровенно спорный. В некоторых случаях "подмешивание" top100 резко увеличивает релевантность первой страницы, в некоторых - как тут проскакивал пример со словом "работа" - портит картину.
Да, вы совершенно правы :-) Мы сейчас этой проблемой уже занимаемся.
С уважением, Андрей Коваленко, компания "Рамблер".
Ты знаешь, есть несколько способов, а именно - много , организовать словарь. Я использую описанное на сайте дерево (кстати, через пару лет после того, как я сделал этот анализатор, такой подход был описан какими-то итальянцами или испанцами).
Поспрошай еще Илью (iseg) - у него словарь, насколько я помню, организован совсем по-другому, на разреженной хэш-таблице.
Можно даже на банальной дихотомии строить, только там придется несколько итераций проводить, постепенно уменьшая длину вероятной основы.
Бывает-бывает
Производительность я давно не мерил, однако в свое время на Пентиуме ("первом") она молотила около десяти тысяч слов в секунду в режиме проверки орфографии и около пяти - в режиме лемматизации, то есть вытаскивания всех отождествлений, всех омонимов, и построения нормальных форм.
Знаешь, ты, похоже, что-то перепутал :-) "лес" и "лесби" - это не мой любимый запрос :-) Хотя у меня их много. Например, "скотоложство" :-)
Кстати, посмотрел твою морфологию по ссылке. Работает, однако подтверждает твои слова о том, что это - куча хлопот и времени. Я свой нынешний любимый запрос скормил туда - и получил формы множественного числа, т. е. "скотоложствами" :-)
Кстати, в морфологии для использования в поисковых системах имеет смысл решить и еще один вопрос - вопрос альтернативного начертания. Например, обсуждаемое слово имеет альтернативное начертание "скотоложество", которое было бы неплохо тоже находить по моему нынешнему любимому запросу :-)
А в Рамблере мы уже довольно используем для нераспознанных морфологическим анализатором слов "нечеткую", т. е. вероятностную морфологию, но поиск не находит "лес" по запросу "лесби" :-)))
Действительно с автором :-) А под некоммерческим использованием надо понимать использование в исследовательских и научных целях или в некоммерческих продуктах. Например, если Вы хотите выставить свой продукт, использующий этот морфоанализатор, в Сеть, то на этих страницах не должно быть баннеров :-) Короче, никакого извлечения денег :-)