Q: Яндекс - "похожие документы"?

!Иван FXS
На сайте с 16.11.2001
Offline
119
3289

Подскажите, плз, что Яндекс понимает под "похожими документами" (урлА типа http://www.yandex.ru/yandsearch?rpt=rad&ds=http://--- под каждой статьей)?

Каков алгоритм их отбора и ранжирования??

VT
На сайте с 27.01.2001
Offline
130
#1

Смотрите здесь и здесь.

Там, конечно, не все, но можно догадаться, как они это делают.

MG
На сайте с 18.10.2002
Offline
27
#2

Нет, это совсем не про это. А это статьи про удаление дублей и определение стиля. Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

VT
На сайте с 27.01.2001
Offline
130
#3
Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

То есть составляют поисковый образ документа.

Некоторые детали об этом образе и описаны в тех статьях, которые я привел. Первая статья о том, как отсеть "почти" дубли - они разве не входят в список "похожих документов"? Вторая, относящаяся к классификации документов, тоже имеет интересные моменты.

Хотя, конечно, Яндексу виднее. :)

С
На сайте с 27.10.2003
Offline
52
#4
Как писал MaxGubin
Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

Все верно, Слава чуть-чуть не дошел до нужной статьи. :)

-------

Поиск похожих документов.

Сейчас реализована очень простая схема поиска похожих документов, основанная на применении нечеткого поиска. Эта схема, тем не менее, вполне удовлетворительно работает в большинстве случаев.

При запросе на поиск похожего документа документ скачивается, выбираются несколько (12) терминов, из них составляется запрос с использованием операции нечеткого поиска.

Принцип отбора терминов для "поискового образа" документа:

Используется функция "контрастности" термина, применяемая в Яндексе при обычном поиске, но в несколько модифицированном виде.

Поведение исходной функции "контрастности" термина: чем чаще термин встречается в документе, и чем реже - во всей коллекции документов, тем выше контрастность термина для документа.

Такая функция "контрастности" для поиска по образцу не годится, поскольку она зачастую выбирает термины, встречающиеся только в этом и, возможно, в нескольких других документах. Как правило, это либо редкие имена собственные и сокращения и т.п, либо опечатки или грамматические ошибки.

Ясно, что если искать документы по таким терминам, то мы скорее всего найдем лишь сам документ-образец, и, возможно, несколько документов того же автора и с такими же грамматическими ошибками либо опечатками.

Поправка функции "контрастности" термина состоит в подавлении слишком редких терминов.

-------

С уважением,

Александр Садовский.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#5

Два вопроса по статье:

1. что такое "словарь, передставленный в виде бора"?

2.

на ... запрос можно "наложить" оператор нечеткого поиска, который будет проведен с учетом всех указанных ограничений контекста

- как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?

С
На сайте с 27.10.2003
Offline
52
#6
Как писал !Иван FXS
1. что такое "словарь, передставленный в виде бора"?

Бор -- структура данных. Поищите по запросу [бор trie]

http://www.yandex.ru/yandsearch?text=%E1%EE%F0+trie&stype=www

2. - как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?

Для этого достаточно заключить запрос в круглые скобки, а в конце поставить два слеша и число от 0 до 100, "приклеенное" к слешам. Например:

(структуры & данных && trie)//0

С уважением,

Александр Садовский.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#7

В результатах, выдаваемых Яндексом, "под чертой" идут статьи с меткой "нестрогое соответствие".

Правильно ли я понимаю, что это как раз и есть результаты нечеткого поиска?

Если да, то они, - наверное, - отранжированы в соответствии с "мерой нечеткости"??

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий