Стало меньше дубликатов?

iseg · 2002-05-20T12:17:32.0000000Z

Добрый день всем! С воскресенья в поиске Яндексе стало меньше повторов. Так как внедрен механизм отсечения нечетких дублей. Просьба поделиться ощущениями: - не пропали ли важные сайты, страницы? - действительно ли стало меньше повторяющихся страниц? С уважением Илья

VT

130

Vyacheslav Tikhonov

31 мая 2002, 10:41

#21

Уважаемый iseg!
Вы бы прояснили все-таки, а? С дублями? Волшебное слово: Пожалуйста.

Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html

Они рассматривают документ последовательностью слов, вернее лексем. После чего выбирают N лексем и создают характеристическое множество каждого документа, причем для каждого такого документа вычисляют вектор, где i-му элементу присваивается 1 в случае, если относительная частота i-го слова из характеристического множества больше какой-то пороговой (выбирают так, чтобы компоненты вектора были более-менее устойчивы к небольшим изменениям документа), и 0 если меньше. Этот бинарный вектор называют нечеткой цифровой подписью документа.

Потом проходят по всем документам и создают множество дублей. При этом учитывают два типа ошибок: альфа-ошибки, если алгоритм не определил дубли, и бета-ошибки, если выделение дубля ошибочно.

Собственно теперь им осталось подобрать оптимальные параметры, чтобы исключить эти альфа-ошибки, в частности указанные в данном топике.

Хороший алгоритм.

357

euhenio

31 мая 2002, 11:02

#22

Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html

-спасибо за статью и объяснение. Теперь стало ясно, как бороться с попаданием в дубли :)

Но эта статья отвечает только на вопрос "как определяются дубли", но не говорит, как выбирается из них "оригинал" для показа в выдаче... А это и интересует!

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

Комментарии с sql-запросами Как в моем случае Нарушения и угрозы безопасности

I

80

iseg

31 мая 2002, 19:57

#23

Спасибо всем откликнувшимся! Как голосовавшим, так и просто вступившим в дискуссию!

В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.

Надеюсь сейчас уже получше.

Также хочу всех заверить, что процесс на этом не завершится. Детали выбора "лучшего дубликата" позвольте пока не описывать.

С уважением,

Илья

482

Sergey Petrenko

31 мая 2002, 20:05

#24

iseg

Хотелось бы, по крайней мере, чтобы дубликатом не были признаны оригиналы материалов...

VT

130

Vyacheslav Tikhonov

1 июня 2002, 23:12

#25

В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.
Надеюсь сейчас уже получше.

http://ya.ru/yandsearch?text=%22notre+damme+de+paris%22&rpt=rad

Дубли 4, 5, 7, 9, 11, 12, 17, 20, 32.

174

DmitryX

3 июня 2002, 15:28

#26

по какому же принципу и какой из дублей отсекается

NW

69

NightWing

4 июня 2002, 09:39

#27

http://ya.ru/yandsearch?text=primary+domain+controller&rpt=rad

первые 4 ссылки...

Maxim A. Ralnikovhttp://ralnikov.com

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

VK приобрела 70% в структуре компании-разработчика red_mad_robot