Во-во. Игорь очень подробно изложил возникающие при учете словообразования проблемы. Еще хуже результаты получатся (если это возможно - хуже), если применить словари синонимов, какой бы привлекательной эта идея ни казалась. Действительно, на первый взгляд, сильно увеличивается полнота поиска. Однако вспомним о том, что слова чаще всего являются синонимами только в определенном контексте, что отражено и в самих словарях синонимов так называемыми группами значений.
Более того, синонимия нетранзитивна, то есть то, что слова A и B являются синонимами, и слова B и C - синонимы, вовсе не означает, что A и C - тоже синонимы. Наглядно в этом можно убедиться, сделав три шага по синонимическим рядам от любого слова и получив абсолютно другое понятие.
Примеров позитивного влияния учета словообразования на качество информационного поиска пока нету, а негативных - масса. Один из них некоторое время назад рассматривал тут Игорь, я же упомяну о другом. Есть такая система - "Алхимик", разработанная харьковской компанией "Велтон-Софт". Там автор не только учитывает словообразовательные ряды, но и, по его словам, оперирует семантическими единицами. Система очень похожа на настоящую, но только не работает. То есть, как и все подобные системы, на специально подобранном авторами массиве текстов она позволяет продемонстрировать их идеи, однако любой шаг в сторону приводит к откровенному бреду.
Отмечу также, что даже хваленый "учет морфологии", которым мы все в свое время козыряли, хоть и нужен при построении качественного поиска, однако должен применяться весьма и весьма осторожно. Библейский пример со словом "сера" уже и приводить как-то неприлично, поэтому возьмем слово "печь", омонимичное с глаголом. Документы, где говорится о пекаре, который что-то там пек, будут найдены наряду с документами, где говорится о кладке печей, и получат ничуть не меньший вес. Чтобы уменьшить этот эффект, точному совпадению формы слова с запросом дается бОльший вес.
Так что находить "поисковый" по запросу "поиск" просто вредно.
Да ладно шуметь... Знаем уже давно о них. Спам - достаточно простой. Ой, пардон, оговорился, "оптимизация"! :) Ну сделали текст ссылок "белым по белому". Ну и что? Год назад почти, 01.04.2002, Влад Шабанов нашел в Рунете кучу вот таких вот замаскированных "посланий инопланетян", о чем Рамблер, как порядочная компания, пекущаяся о безопасности Рунета, сообщила в новостях :)
Так от того, что десять раз повторить слово "хостинг", все равно высокого ранга страницы не получишь по этому запросу. Эти-то вещи решаются алгоритмически.
Ну и зря. "Зря" - это насчет "никак".
А вообще задача вполне простая. Если Вы храните в индексе координату слова, то вообще непонятно, о чем идет речь. Если же нет, но хотите подсвечивать вхождения online, и у Вас есть качественный и быстрый морфологический анализатор, то задача также решается достаточно просто. Практически исчерпывающие ответы дали Игорь и Илья, я от себя лишь добавлю, как практически та же задача была в свое время решена мной.
В пакете проверки русской орфографии и грамматики "Пропись 4.0" была функция замены русского слова со всеми формами, в том числе и в встраиваемая в Microsoft Word. Чтобы быстро искать в "евойном" тексте, то есть средствами самого Word, для слова порождался набор формальных шаблонов с использованием полной парадигмы слова, а далее каждое найденное вхождение уже проверялось морфологическим анализатором на соответствие искомой словоформе.
Понятно, что для этого нужен качественный полнофункциональный морфологический анализатор. Ну, а где его взять - не буду говорить, а то Петренка меня осудит за саморекламу :)
Ну так, может, и не ставилась задача позиционирования в поисковиках? :)
"Перестал находиться" и "провалился с первой страницы выдачи" - это разные явления :) Впрочем, без url рассуждать об этом бессмысленно.
Ну, как всегда, начать надо с себя и пересмотреть свое отношение к тем, кто стоит раньше в выдаче, и начать относиться к ним как к друзьям, ну или хотя бы к друзьям по несчастью (нашими стараниями :)).
Ну, в общем, тут и без меня дали исчерпывающие ответы на все поставленные вопросы :)
Мне остается лишь добавить, что порог подмешивания из top100 сейчас не есть фиксированная величина, то есть это не "три" и не "пять". Впрочем, и не "четыре" :) Количество подмешиваемых из top100 сайтов сейчас есть динамическая величина, зависящая от целого ряда параметров.
wolf, А не "в лоб"? ;) - так существует на свете не только алгоритм PageRank. Есть, например, предложенный также Гуглом в апреле этого года неплохой алгоритм ранжирования - PigeonRank (см. http://www.google.com/technology/pigeonrank.html), отличающийся высокой эффективнгостью.
Так что ж мы будем сейчас это обсуждать? :) Разные работы ведутся в компании, пройдет время - увиди[те/м] :)
Давайте скажем так. Возможно, я повторюсь, но PageRank страницы как таковой, то есть вес, который увеличивается тем сильнее, чем больше "авторитетных" страниц, то есть страниц с высоким PageRank, на нее ссылается, использовать в ранжировании выдачи мы считаем неправильным. Причина - приведенный выше пример. Действительно, страница, где однократно упоминаются, скажем, рельсы :), являющаяся частью произведения Толстого и имеющая очень высокий PageRank, ничуть не релевантнее запросу "рельсы", чем прайс-лист фирмы, торгующей металлопрокатом, или какой-нибудь справочник железнодорожника. Именно поэтому мы считаем неправильным использование PageRank "в лоб". Впрочем, не сомневаюсь, что и Илья придерживается такой же точки зрения :)
Что же касается той страницы, которую уважаемое сообщество могло лицезреть по нашему недосмотру более суток :) - да, это был, как говорит Дима Мельников, "типичнейший" PageRank, несмотря на некоторые модификации. Однако это был всего лишь рабочий, "исследовательский" web-интерфейс, используемый для других целей.
С уважением, Андрей Коваленко,
компания Рамблер.
Да, безусловно, ряд таких факторов используется. Один из них - и об этом давно уже известно - рейтинг документа в top100 :)
Если же говорить о разных рейтингах популярности, то ведь давно уже ни для кого не секрет, что учет голой популярности не приносит никакой пользы, кроме, пожалуй, только вреда :)
Простой пример. Пусть есть некий (специально не будем конкретизировать, какой) индекс или рейтинг популярности некоторого документа или сайта.
Пусть у документа (для простоты) A он весьма и весьма высок.
Пусть также у документа B он низок, или вообще равен нулю.
Пусть документ A есть новостная лента, в одной из заметок которой упоминается угон автомобиля BMW.
Пусть документ B полностью посвящен автомобилю BMW, причем, скорее всего, заслуженно :) - марка-то особенная :):):)
Итак, по запросу BMW мы находим оба эт документа. Совершенно очевидно, что документ B "лучше" с точки зрения пользователя, и его надо выдавать выше, чем первый. Наш же гипотетический "индекс популярности" диктует обратное.
Что же касается конкретной информации о том, что и как мы используем сейчас или будем использовать в ближайшее время - я, с позволения публики, воздержусь от комментариев :)