"Паралельная выдача" - новый алгоритм Яндекса? Или старый?

12
an2003
На сайте с 07.10.2003
Offline
93
2261

Небольшое размышление о выдаче Яндекса.

Традиционное представление о выдаче поисковой системы предполагает "линейное" ранжирование найденных документов по релевантности. Т.е. есть условная "формула", по которой:

- первый документ - лучше всех соответствует запросу;

- второй документ - немножко похуже;

- третий документ - еще хуже;

и т.д.

И оптимизаторы бьются за "высшую релевантность" к продвигаемому запросу, наращивая контент и ссылки.

А что если выдача Яндекса уже не "линейная", а "паралельная" ?

Берем нечеткий, информационный, персонифицированный запрос "Борис". По традиционному представлению об оптимизации и выдаче, на первом месте будет наиболее релевантный сайт к "Борису", на втором чуть менее релевантный, и т.д.

Смотрим найденных "Борисов" в первой странице выдачи:

Борис Акунин

Борис Гребенщиков (найдено по ссылке)

Борис Немцов

Борис Моисеев

БОРИС КАРЛОВ (регистр имеет принципиальное значение?)

Сьогодні °Борис° знають не тільки в Україні, але й за кордоном.

Борис Карлов

Борис-Хоф (компания - официальный дилер BMW в России, второе слово - с большой буквы, как фамилия).

Борис Стругацкий

Борис Колесников

Интересно, что практически все документы о РАЗНЫХ БОРИСАХ. Что чрезвычайно логично для нечеткого информационного запроса, поскольку дает пользователю выбор из наиболее вероятных "Борисов" для дальнейшего уточнения запроса.

Выглядит так, как будто для информационного однословного запроса подобраны варианты его "уточнения" (что можно сделать по списку запросов пользователей). Или это может быть не уточнение, а "уникальное контекстное окружение" - набор редких слов, которые часто встречаются рядом с исходным словом запроса.

В результате, наверх ПАРАЛЕЛЬНО поднимаются сайты с уникальным (друг к другу), но часто встречающимся в контексте запроса, словарным окружением вокруг исходного запроса. Причем, судя по выдаче, здесь на равных учитываются и слова текста, и слова ссылок. Или выдача к исходному запросу сформирована "паралельно" из документов, релевантных к наиболее вероятным уточнениям исходного запроса.

Получается, в этом случае, что продвигать сайт по информационному запросу нужно не к исходному запросу, а к одному из его наиболее вероятных уточнений используя рядом с ним уникальные слова, часто встречающиеся в документах, в контексте слова запроса.

Кстати, эта гипотеза вполне согласуется с докладом "Технологии извлечения знаний для поиска в Интернете. От слов к объектам." Лев Гершензон.

(http://company.yandex.ru/articles/cib2006-gershenzon.ppt)

В докладе сформулированы основные направления развития алгоритмов Яндекса. Краткое содержание:

Текущее состояние поиска (на Яндексе) - поиск сайтов\страниц содержащих слова запроса.

Будущее Яндекса:

1. Поиск - объектов распознанных в запросе (а не слов).

2. Выдача - множества найденных объектов (или множество ответов на вопрос в запросе).

Пример решения - пресс-портреты в "новостях" Яндекса (поэтому в качестве примера и был взят "Борис").

Вопрос: так это в будущем или уже используется?

С уважением, Антон Николаев www.c-laboratory.ru (http://www.c-laboratory.ru)
Н
На сайте с 20.01.2006
Offline
48
#1
an2003:

Вопрос: так это в будущем или уже используется?

Наблюдаю такое по одному однословному запросу.

го - японская игра

го - Гражданская Оборона

го - название музыкальной группы "Дядя го"

Ну и всякие там 5-го, 20-го

Всё это присутствует в топ-10.

Стоит уточнить запрос, и "шум" хорошо удаляется.

Го (http://GoStart.ru) - самая пленительная игра (http://forum.kido.com.ru) в мире.
a1333
На сайте с 25.06.2005
Offline
137
#2

А теперь представим 10 сайтов, одновременно продвигаемых мордами и все о Борисе Акунине...

Профессиональный аудит интернет-магазинов ICQ: 366-240-630
Ceres
На сайте с 28.09.2004
Offline
389
#3
А теперь представим 10 сайтов, одновременно продвигаемых мордами и все о Борисе Акунине...

ага, или ублюдки заспамят про Борьку Ельцина :)

Там чу-де-са! )
Н
На сайте с 20.01.2006
Offline
48
#4
a1333:
А теперь представим 10 сайтов, одновременно продвигаемых мордами и все о Борисе Акунине...

Тогда они всех остальных забьют.

Сравните

окна
двери
дома

a1333
На сайте с 25.06.2005
Offline
137
#5

Ceres, Борька это правительственный сайт - у него релевантность правительственная.

an2003
На сайте с 07.10.2003
Offline
93
#6
a1333:
А теперь представим 10 сайтов, одновременно продвигаемых мордами и все о Борисе Акунине...

... представить не сложно, книги - товар. Если есть 10 серьезных продавцов книг Б.Акунина, могут и мордами продвигать.

Похоже на технологию с паралельной выдачей наиболее релевантных документов по выявленным кластерам.

Вот пример поисковика, который сгруппированные результаты по топикам выдает на отдельной панели слева - www.clusty.com

Ниже результаты кластеризации www.clusty.com по запросу "Борис":

Boris (40)

Сайт (16)

Бориса (18)

Борис Акунин (10)

Для (10)

Работы (6)

Mp3, Песни (4)

Художник (7)

Фотографии (6)

Борис Немцов (6)

Михайлович (6)

Новости (5)

В Библиотеке (3)

Галерея (3)

Борис Минчев (2)

Борис Гребенщиков (5)

Viewing Profile (2)

Борис-Хоф (2)

Психолог, Психотерапевт Борис (2)

Член (3)

Быть (2)

Клуб (3)

Борис Алексеевич (3)

Россия (3)

Борис Николаевич (3)

Борис Фёдоров (2)

Свешников Борис (2)

Борис Розин (2)

Борис Годунов (2)

Борис Сахаров (2)

Борис Хромов (2)

Борис Борисов (2)

Группа (2)

Борис Ангелов (2)

Громов Борис Всеволодович (2)

Марта (2)

Борис Коценко (2)

Авторы (2)

Русская Поэзия 1960-Х Годов Как (2)

Other Topics (53)

Если "почистить" этот список выделив персоны (а Яндекс это может - см. пресс-портреты) или убрав частотные слова... Хотя, даже достаточно оставить с прямым вхождением слова запроса.

deadcat
На сайте с 04.04.2005
Offline
27
#7

ну, тогда уж они бы сделали реальную кластеризацию аля nigma.ru...

но убогость в Яне процветает как ни где боле...

valentin shergin research laboratory (http://shergin.com), erratum machine – самоорганизация документов, cms, cmf (http://erratum.ru)
a1333
На сайте с 25.06.2005
Offline
137
#8

deadcat, а где менее?

an2003
На сайте с 07.10.2003
Offline
93
#9
deadcat:
ну, тогда уж они бы сделали реальную кластеризацию аля nigma.ru...

выдача по "Борисам", первая десятка - практически одинакова.

an2003
На сайте с 07.10.2003
Offline
93
#10

Подтверждение гипотезы о существовании механизма "паралельной" выдачи по нечетким информационным запросам, на примере запроса "Борис":

Гипотеза: 1 страница выдачи Яндекс по запросу "Борис" состоит из сайтов, наиболее релевантных к "уточнениям" этого запроса:

- объект (или уточнение) "Борис Моисеев" - самый релевантный сайт к запросу "Борис Моисеев";

- объект (или уточнение) "Борис Акунин" - самый релевантный сайт к запросу "Борис Акунин";

и далее - аналогично.

Проверяем:

Сегодняшняя выдача Яндекса по запросу "Борис":

1. Борис Акунин - www.akunin.ru

2. Борис Немцов - www.nemtsov.ru

3. Борис Україні - boris.kiev.ua (?)

4. Борис Карлов - bkarlov.narod.ru

5. БОРИС КАРЛОВ - sheba.spb.ru

6. борис Стругацкі - www.rusf.ru/abs/

7. Борис Моисеев - www.bmoiseev.ru

8. Борис Грызлов - www.gryzlov.ru

9. Борис Колесников - www.jewelart.ru

10. Борис-Хоф - www.bmw-cars.ru

Теперь делаем запросы:

запрос "Борис Акунин" - www.akunin.ru (1 место)

запрос "Борис Немцов" - www.nemtsov.ru (1 место)

запрос "Борис Україні" - boris.kiev.ua (?)

запрос "Борис Карлов" - bkarlov.narod.ru (1 место)

запрос "БОРИС КАРЛОВ" - sheba.spb.ru (2 место)

запрос "борис Стругацкі" - www.rusf.ru/abs/ (1 место)

запрос "Борис Моисеев" - www.bmoiseev.ru (1 место)

запрос "Борис Грызлов" - www.gryzlov.ru (1 место)

запрос "Борис Колесников" - www.jewelart.ru (1 место)

запрос "Борис-Хоф" - www.bmw-cars.ru (1 место)

Итого, 8 из 10 документов выдачи по персонам - "объектам", выделенным на бытовом уровне в теме "Борис" полностью соответствуют предложенной гипотезе.

2/10 гипотезу не подтверждают:

- сайт на украинском языке, в котором неочевидно, что является "объектом" или уточнением;

- Борис Карлов и БОРИС КАРЛОВ. Насколько я помню, "колдунщик" превращает слово набранное заглавными буквами в строчное... т.е. Борис Карлов и БОРИС КАРЛОВ - два разных "Бориса". Опять же, неочевидно, что здесь связано со словом Борис. Полагаю, что надо внимательно посмотреть веса слов в пассажах про Бориса...

Напрашивается вывод - чтобы попасть на первую страницу Яндекса по запросу "Борис" надо:

1. Оценить, по какому из "Борисов" будет проще продвигать сайт.

2. Выбрать себе одного из "Борисов" попроще и добиться первого места в Яндексе по этому запросу.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий