Стало меньше дубликатов?

1 23
VT
На сайте с 27.01.2001
Offline
130
#21
Уважаемый iseg!
Вы бы прояснили все-таки, а? С дублями? Волшебное слово: Пожалуйста.

Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html

Они рассматривают документ последовательностью слов, вернее лексем. После чего выбирают N лексем и создают характеристическое множество каждого документа, причем для каждого такого документа вычисляют вектор, где i-му элементу присваивается 1 в случае, если относительная частота i-го слова из характеристического множества больше какой-то пороговой (выбирают так, чтобы компоненты вектора были более-менее устойчивы к небольшим изменениям документа), и 0 если меньше. Этот бинарный вектор называют нечеткой цифровой подписью документа.

Потом проходят по всем документам и создают множество дублей. При этом учитывают два типа ошибок: альфа-ошибки, если алгоритм не определил дубли, и бета-ошибки, если выделение дубля ошибочно.

Собственно теперь им осталось подобрать оптимальные параметры, чтобы исключить эти альфа-ошибки, в частности указанные в данном топике.

Хороший алгоритм.

euhenio
На сайте с 21.09.2001
Offline
357
#22
Так алгоритм вроде ж очень даже подробно описан на http://company.yandex.ru/articles/article7.html

-спасибо за статью и объяснение. Теперь стало ясно, как бороться с попаданием в дубли :)

Но эта статья отвечает только на вопрос "как определяются дубли", но не говорит, как выбирается из них "оригинал" для показа в выдаче... А это и интересует!

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
I
На сайте с 15.12.2000
Offline
80
#23

Спасибо всем откликнувшимся! Как голосовавшим, так и просто вступившим в дискуссию!

В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.

Надеюсь сейчас уже получше.

Также хочу всех заверить, что процесс на этом не завершится. Детали выбора "лучшего дубликата" позвольте пока не описывать.

С уважением,

Илья

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#24

iseg

Хотелось бы, по крайней мере, чтобы дубликатом не были признаны оригиналы материалов...

VT
На сайте с 27.01.2001
Offline
130
#25
В момент, когда я инициировал опрос, процесс очистки был лишь запущен, дубликаты (в нашем смысле) были вычищены примерно на четверть.
Надеюсь сейчас уже получше.

http://ya.ru/yandsearch?text=%22notre+damme+de+paris%22&rpt=rad

Дубли 4, 5, 7, 9, 11, 12, 17, 20, 32.

DmitryX
На сайте с 30.06.2001
Offline
174
#26

по какому же принципу и какой из дублей отсекается

NW
На сайте с 10.07.2001
Offline
69
#27
Maxim A. Ralnikovhttp://ralnikov.com
1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий