У яндекс новостей новый алгоритм определения дубликатов

12 3
sun99
На сайте с 12.09.2006
Offline
108
3965
Сегодня мы запустили новый алгоритм определения дубликатов – сообщений, очень похожих на другие. По примеру товарищей из поиска этому важному релизу мы дали географическое имя - Дублин.

Нам кажется, что наши читатели должны видеть ссылки на разные интересные материалы, рассказывающие об актуальных событиях. При этом важно, чтобы у читателей был доступ к первоисточникам, тем, кто первым опубликовал важную информацию. С новым алгоритмом, кажется, мы приблизились к этой цели.

Новый алгоритм значительно полнее и точнее собирает в группы похожие документы и выделяет из них «документ-мастер», как правило, первоисточник новости. Основные факторы, на которые опирается алгоритм – текстуальная близость документов, время публикации, ссылки (как гипер-, так и текстовые) на источник.

Дубликаты не показываются на первой странице сюжета, но доступны при просмотре всех сообщений.Также по умолчанию они не показываются на странице результатов поиска.

Обо всех замеченных ошибках пишите нам, пожалуйста, на info@news.yandex.ru, алгоритм будет совершенствоваться .

имхо, деятельность у команды новостей и поиска должна пересекаться

наработки и опыт логично использовать коллегам

;)

может стоит надеяться на улучшения в общем поиске?

космополитизм каждой голове
shmelina
На сайте с 12.09.2005
Offline
168
#1

ну посмотрим посмотрим:) я так понял, главная фишка алгоритма - определение первоисточника:) чего не хватает нам всем в поиске))

sun99
На сайте с 12.09.2006
Offline
108
#2

ага

надеемся и верим)

sun99 добавил 08.07.2009 в 18:34

Насколько большой вес имеет в новом алгоритме время публикации? Ведь общеизвестно, что материал, опубликованный первым, не обязательно лучше и полнее описывает данный сюжет. При том, что "самый первый" и "самый полный" материалы безусловно "текстуально близки". Заранее благодарю за ответ.
Фактор времени публикации достаточно весомый. Вместе с тем сообщение, которое включает в себя первое и самое цитируемое ("мастера") из кластера похожих и при этом содержит достаточно своего контента, не будет определено как дубликат и на общих основаниях сможет претендовать на место на первой странице сюжета.

кагбе тут говорят то, что было сказано в кулуарах конфы нетпромотера

+ с этой фразы можно с другого ракурса взглянуть на метод защиты контенты, который сейчас уже многие используют;)

F2
На сайте с 30.10.2008
Offline
15
#3
sun99:
Также по умолчанию они не показываются на странице результатов поиска.

В смысле их в индексе не будет вообще? Не понятно, будут ли банить сайты за дубли при помощи этого алгоритма?

GeorgeWhite
На сайте с 27.05.2008
Offline
131
#4

Ну так это ж счастье :) Хоть откровенных "копираторов" обломают.

shmelina
На сайте с 12.09.2005
Offline
168
#5
GeorgeWhite:
Ну так это ж счастье :) Хоть откровенных "копираторов" обломают.

И откровенные "копираторы" повысят свои навыки и ничего толком не изменится) Если научится определять источник - это да, круто, а иначе...:)

GeorgeWhite
На сайте с 27.05.2008
Offline
131
#6
shmelina:
И откровенные "копираторы" повысят свои навыки

Пусть. Это в любом случае сложнее, чем просто копировать новость и претендовать на место в топе.

[Удален]
#7

Не знаю, чего они там и как запустили, только ссылка "сюжет полностью" была и ранее, а тема Британскую королеву лишили государственного самолета, к примеру, цитируется по времени так:

1. Елизавете II "подрезали крылья" 18:19 Известия

2. Королеву лишили крыльев 14:45 TrendyMen

...

18. Елизавету II оставили без государственного самолета 09:09 Вести.Ru

т.е. главные первоисточники - не в топе, а сами понимаете где. 😎

GeorgeWhite
На сайте с 27.05.2008
Offline
131
#8
zagred:
главные первоисточники

А это смотря кого и за что считать главным.

[Удален]
#9
GeorgeWhite:
А это смотря кого и за что считать главным.

Будем на кофейной гуще гадать или обратимся к сообщению Я-новостей? -

Новый алгоритм значительно полнее и точнее собирает в группы похожие документы и выделяет из них «документ-мастер», как правило, первоисточник новости.

А теперь попробуйте объяснить, как первоисточник публикует инфу вечером, когда ее все гс инета уже повторили с утра? 🚬

GeorgeWhite
На сайте с 27.05.2008
Offline
131
#10
zagred:
как первоисточник публикует инфу вечером, когда ее все гс инета уже повторили с утра

Это я и сам не понимаю, особенно после

zagred:
1. Елизавете II "подрезали крылья" 18:19 Известия
2. Королеву лишили крыльев 14:45 TrendyMen
...
18. Елизавету II оставили без государственного самолета 09:09 Вести.Ru

Кто из указанных гс, повторивший новость утром, а кто первоисточник в данном случае?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий