Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)
Как писал Ashmanov

...
Полученный уровень шума вас просто приятно удивит. Поиск слова "партия" даст партийные списки, вместо красного вина получите краснуху, на "телефон" вам выдадут телефонизацию Нарьян-Мара в 1995 году и так далее.
Самое неприятное, что во многих случаях будт неясно, за что вообще зацепился поиск, и каждый раз нужно будет решать ребусы.
...

Во-во. Игорь очень подробно изложил возникающие при учете словообразования проблемы. Еще хуже результаты получатся (если это возможно - хуже), если применить словари синонимов, какой бы привлекательной эта идея ни казалась. Действительно, на первый взгляд, сильно увеличивается полнота поиска. Однако вспомним о том, что слова чаще всего являются синонимами только в определенном контексте, что отражено и в самих словарях синонимов так называемыми группами значений.

Более того, синонимия нетранзитивна, то есть то, что слова A и B являются синонимами, и слова B и C - синонимы, вовсе не означает, что A и C - тоже синонимы. Наглядно в этом можно убедиться, сделав три шага по синонимическим рядам от любого слова и получив абсолютно другое понятие.

Примеров позитивного влияния учета словообразования на качество информационного поиска пока нету, а негативных - масса. Один из них некоторое время назад рассматривал тут Игорь, я же упомяну о другом. Есть такая система - "Алхимик", разработанная харьковской компанией "Велтон-Софт". Там автор не только учитывает словообразовательные ряды, но и, по его словам, оперирует семантическими единицами. Система очень похожа на настоящую, но только не работает. То есть, как и все подобные системы, на специально подобранном авторами массиве текстов она позволяет продемонстрировать их идеи, однако любой шаг в сторону приводит к откровенному бреду.

Отмечу также, что даже хваленый "учет морфологии", которым мы все в свое время козыряли, хоть и нужен при построении качественного поиска, однако должен применяться весьма и весьма осторожно. Библейский пример со словом "сера" уже и приводить как-то неприлично, поэтому возьмем слово "печь", омонимичное с глаголом. Документы, где говорится о пекаре, который что-то там пек, будут найдены наряду с документами, где говорится о кладке печей, и получат ничуть не меньший вес. Чтобы уменьшить этот эффект, точному совпадению формы слова с запросом дается бОльший вес.

Так что находить "поисковый" по запросу "поиск" просто вредно.

Как писал bannerman
Вроде ничего нового, только нажмите CTRL+A и посмотрите вниз.

Представители поисковиков - ловите!!!

Да ладно шуметь... Знаем уже давно о них. Спам - достаточно простой. Ой, пардон, оговорился, "оптимизация"! :) Ну сделали текст ссылок "белым по белому". Ну и что? Год назад почти, 01.04.2002, Влад Шабанов нашел в Рунете кучу вот таких вот замаскированных "посланий инопланетян", о чем Рамблер, как порядочная компания, пекущаяся о безопасности Рунета, сообщила в новостях :)

Так от того, что десять раз повторить слово "хостинг", все равно высокого ранга страницы не получишь по этому запросу. Эти-то вещи решаются алгоритмически.

Как писал mikek
никак.

Ну и зря. "Зря" - это насчет "никак".

А вообще задача вполне простая. Если Вы храните в индексе координату слова, то вообще непонятно, о чем идет речь. Если же нет, но хотите подсвечивать вхождения online, и у Вас есть качественный и быстрый морфологический анализатор, то задача также решается достаточно просто. Практически исчерпывающие ответы дали Игорь и Илья, я от себя лишь добавлю, как практически та же задача была в свое время решена мной.

В пакете проверки русской орфографии и грамматики "Пропись 4.0" была функция замены русского слова со всеми формами, в том числе и в встраиваемая в Microsoft Word. Чтобы быстро искать в "евойном" тексте, то есть средствами самого Word, для слова порождался набор формальных шаблонов с использованием полной парадигмы слова, а далее каждое найденное вхождение уже проверялось морфологическим анализатором на соответствие искомой словоформе.

Понятно, что для этого нужен качественный полнофункциональный морфологический анализатор. Ну, а где его взять - не буду говорить, а то Петренка меня осудит за саморекламу :)

Как писал ewspam

...
И такой ужас практически на каждой странице...
А Вы говорите АГАВА...

Ну так, может, и не ставилась задача позиционирования в поисковиках? :)

Как писал ANN
Непонятная ситуация с сайтом на Рамблере:
две недели как сайт полностью перестал находится, одако, при проверке индексации сайта в форме добавления - все страницы проиндексированы.
Кто может объяснить?

"Перестал находиться" и "провалился с первой страницы выдачи" - это разные явления :) Впрочем, без url рассуждать об этом бессмысленно.

Как писал art_monster
С чего начинать анализ вражеских сайтов стоящих перед тобой в выдаче по данному ключевому слову?

Ну, как всегда, начать надо с себя и пересмотреть свое отношение к тем, кто стоит раньше в выдаче, и начать относиться к ним как к друзьям, ну или хотя бы к друзьям по несчастью (нашими стараниями :)).

Как писал Gray
А вот утром придет Коваленко и разберется. И скажет что-нибудь умное. Утро вечера, а уж тем более ночи - мудренее...

Ну, в общем, тут и без меня дали исчерпывающие ответы на все поставленные вопросы :)

Мне остается лишь добавить, что порог подмешивания из top100 сейчас не есть фиксированная величина, то есть это не "три" и не "пять". Впрочем, и не "четыре" :) Количество подмешиваемых из top100 сайтов сейчас есть динамическая величина, зависящая от целого ряда параметров.

wolf, А не "в лоб"? ;) - так существует на свете не только алгоритм PageRank. Есть, например, предложенный также Гуглом в апреле этого года неплохой алгоритм ранжирования - PigeonRank (см. http://www.google.com/technology/pigeonrank.html), отличающийся высокой эффективнгостью.

Так что ж мы будем сейчас это обсуждать? :) Разные работы ведутся в компании, пройдет время - увиди[те/м] :)

Как писал wolf
Да не, нормальный процесс притирки измененного алгоритма. Яндекс, вон, после введения ВИЦ'а полгода не по детски колбасило - все коэффициентики корректировали. Странно только, что Keva шифруется, если не PageRank ввели, так что же? Или он имел ввиду, что у них PageRank не по классической формуле Пейджа и Брина рассчитывается? А то что какой-то параметр у них PageRank'ом зовется, так это все мы целых полдня видели. ;)

Давайте скажем так. Возможно, я повторюсь, но PageRank страницы как таковой, то есть вес, который увеличивается тем сильнее, чем больше "авторитетных" страниц, то есть страниц с высоким PageRank, на нее ссылается, использовать в ранжировании выдачи мы считаем неправильным. Причина - приведенный выше пример. Действительно, страница, где однократно упоминаются, скажем, рельсы :), являющаяся частью произведения Толстого и имеющая очень высокий PageRank, ничуть не релевантнее запросу "рельсы", чем прайс-лист фирмы, торгующей металлопрокатом, или какой-нибудь справочник железнодорожника. Именно поэтому мы считаем неправильным использование PageRank "в лоб". Впрочем, не сомневаюсь, что и Илья придерживается такой же точки зрения :)

Что же касается той страницы, которую уважаемое сообщество могло лицезреть по нашему недосмотру более суток :) - да, это был, как говорит Дима Мельников, "типичнейший" PageRank, несмотря на некоторые модификации. Однако это был всего лишь рабочий, "исследовательский" web-интерфейс, используемый для других целей.

С уважением, Андрей Коваленко,

компания Рамблер.

Как писал wolf
Спасибо. Сформулируем вопрос по другому. Используются ли в Рамблере какие-либо статические факторы (т.е. независящие от запроса) при оценке релевантности документа (своеобразная авторитетность документа или популярность, может click-popularity)? И если да, то какие?

Да, безусловно, ряд таких факторов используется. Один из них - и об этом давно уже известно - рейтинг документа в top100 :)

Если же говорить о разных рейтингах популярности, то ведь давно уже ни для кого не секрет, что учет голой популярности не приносит никакой пользы, кроме, пожалуй, только вреда :)

Простой пример. Пусть есть некий (специально не будем конкретизировать, какой) индекс или рейтинг популярности некоторого документа или сайта.

Пусть у документа (для простоты) A он весьма и весьма высок.

Пусть также у документа B он низок, или вообще равен нулю.

Пусть документ A есть новостная лента, в одной из заметок которой упоминается угон автомобиля BMW.

Пусть документ B полностью посвящен автомобилю BMW, причем, скорее всего, заслуженно :) - марка-то особенная :):):)

Итак, по запросу BMW мы находим оба эт документа. Совершенно очевидно, что документ B "лучше" с точки зрения пользователя, и его надо выдавать выше, чем первый. Наш же гипотетический "индекс популярности" диктует обратное.

Что же касается конкретной информации о том, что и как мы используем сейчас или будем использовать в ближайшее время - я, с позволения публики, воздержусь от комментариев :)

С уважением, Андрей Коваленко,

компания Рамблер.

Всего: 238