Алгоритм поиска дублей статей

WU
На сайте с 07.10.2007
Offline
169
#41

это доказывает только, что у нас разные расчеты

AL
На сайте с 07.03.2007
Offline
67
#42
WSGU:
Если верить статьям самого яндекса, то для определения дублей они используют шинглы и тот факт, что уже имеется некоторая инвертированная база текстов. Я уже представлял на форуме пример работы этого алгоритма (см. тут).

Хых, от фонаря ввел два только что придуманных текста:

1. В пионерском лагере мы делали зарядку а после завтрака у нас было построение на пионерскую линейку

2. В нашем пионерском лагере проводились пионерские линейки, а по утрам нас выводили на утреннюю зарядку

Результат: "Тексты разные. Сходства нет. Рерайтинг очень хороший!"

Честно говоря, результат у меня вызывает сомнения... Врядли от перестановки местами слов текст будет считаться уникальным. (замечу, что мое мнение голословно, специальных экспериментов я не проводил, но сам работаю только с уникальными текстами написанными с нуля руками)

...
Bor-ka
На сайте с 16.11.2004
Offline
252
#43

A_Liss,

Схожесть: 20.00%

AL
На сайте с 07.03.2007
Offline
67
#44
Bor-ka:
A_Liss,
Схожесть: 20.00%

А где это посмотреть можно? Чет не увидел где схожесть в %-ах определяется

Bor-ka
На сайте с 16.11.2004
Offline
252
#45
A_Liss:
А где это посмотреть можно? Чет не увидел где схожесть в %-ах определяется

Это я посчитал, там схожесть 0.

AL
На сайте с 07.03.2007
Offline
67
#46

А, понятно :)

Пасиб

WU
На сайте с 07.10.2007
Offline
169
#47
A_Liss:


Врядли от перестановки местами слов текст будет считаться уникальным.

По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.

[Удален]
#48
WSGU:
По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.

Т.е., у Вас такой "подход" к этой проблеме?😆

Продолжайте в том духе.;)

WU
На сайте с 07.10.2007
Offline
169
#49

Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

ИМХО
На сайте с 05.01.2008
Offline
42
#50
WSGU:
Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

Хорошая идея! Даже если поисковики используют другие технологии, эта должна давать неплохое ориентировочное ощущение качества рерайта.

А вы в расстоянии Левенштейна за единицу изменяемой величины используете букву или слово? Потому что при сравнении полного текста, при учете возможной синонимизации логичнее было бы использовать слово в качестве неделимого элемента.

С уважением, Константин.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий