Q: Яндекс - "похожие документы"? - Поисковые технологии - Практические вопросы оптимизации

119

!Иван FXS

18 октября 2004, 13:55

3302

Подскажите, плз, что Яндекс понимает под "похожими документами" (урлА типа http://www.yandex.ru/yandsearch?rpt=rad&ds=http://--- под каждой статьей)?

Каков алгоритм их отбора и ранжирования??

VT

130

Vyacheslav Tikhonov

18 октября 2004, 14:05

#1

Смотрите здесь и здесь.

Там, конечно, не все, но можно догадаться, как они это делают.

MG

27

MaxGubin

18 октября 2004, 15:01

#2

Нет, это совсем не про это. А это статьи про удаление дублей и определение стиля. Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

18 октября 2004, 15:13

#3

Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

То есть составляют поисковый образ документа.

Некоторые детали об этом образе и описаны в тех статьях, которые я привел. Первая статья о том, как отсеть "почти" дубли - они разве не входят в список "похожих документов"? Вторая, относящаяся к классификации документов, тоже имеет интересные моменты.

Хотя, конечно, Яндексу виднее. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

С

52

Садовский

18 октября 2004, 22:35

#4

Как писал MaxGubin
Я не уверен до деталей насчет яндекса, но обычно просто расширяют запрос наиболее "тяжелыми" (в некотором статистистическом смысле) словами и фразами из этого документа.

Все верно, Слава чуть-чуть не дошел до нужной статьи. :)

-------

Поиск похожих документов.

Сейчас реализована очень простая схема поиска похожих документов, основанная на применении нечеткого поиска. Эта схема, тем не менее, вполне удовлетворительно работает в большинстве случаев.

При запросе на поиск похожего документа документ скачивается, выбираются несколько (12) терминов, из них составляется запрос с использованием операции нечеткого поиска.

Принцип отбора терминов для "поискового образа" документа:

Используется функция "контрастности" термина, применяемая в Яндексе при обычном поиске, но в несколько модифицированном виде.

Поведение исходной функции "контрастности" термина: чем чаще термин встречается в документе, и чем реже - во всей коллекции документов, тем выше контрастность термина для документа.

Такая функция "контрастности" для поиска по образцу не годится, поскольку она зачастую выбирает термины, встречающиеся только в этом и, возможно, в нескольких других документах. Как правило, это либо редкие имена собственные и сокращения и т.п, либо опечатки или грамматические ошибки.

Ясно, что если искать документы по таким терминам, то мы скорее всего найдем лишь сам документ-образец, и, возможно, несколько документов того же автора и с такими же грамматическими ошибками либо опечатками.

Поправка функции "контрастности" термина состоит в подавлении слишком редких терминов.

-------

С уважением,

Александр Садовский.

Новая функция автозавершения в Яндекс запустил функцию визуального Определение геозависимости запроса в

119

!Иван FXS

19 октября 2004, 06:32

#5

Два вопроса по статье:

1. что такое "словарь, передставленный в виде бора"?

2.

на ... запрос можно "наложить" оператор нечеткого поиска, который будет проведен с учетом всех указанных ограничений контекста

- как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?

С

52

Садовский

19 октября 2004, 09:23

#6

Как писал !Иван FXS
1. что такое "словарь, передставленный в виде бора"?

Бор -- структура данных. Поищите по запросу [бор trie]

http://www.yandex.ru/yandsearch?text=%E1%EE%F0+trie&stype=www

2. - как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?

Для этого достаточно заключить запрос в круглые скобки, а в конце поставить два слеша и число от 0 до 100, "приклеенное" к слешам. Например:

(структуры & данных && trie)//0

С уважением,

Александр Садовский.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

25 октября 2004, 05:42

#7

В результатах, выдаваемых Яндексом, "под чертой" идут статьи с меткой "нестрогое соответствие".

Правильно ли я понимаю, что это как раз и есть результаты нечеткого поиска?

Если да, то они, - наверное, - отранжированы в соответствии с "мерой нечеткости"??

Наличие метрики влияет на Видео находится за пределами 3 месяца Google не

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Q: Яндекс - "похожие документы"?