Хорошая идея, чтобы сравнить тексты на основе расстояния Левенштейна за единицу изменяемой величины - Яндекс

Алгоритм поиска дублей статей

Vanich · 2008-02-14T16:56:46.0000000Z

Будет ли Яша считать дублем статьи, в которых совпадает 10 предложений из 20??? Что-нибудь про алгоритм определения дублей известно, кроме общих понятий (поиск нечетких дублей, и т.д.). Меня интересует, если он случайно сравнит статьи и именно те предложения, которые одинаковые, станет он дальше разбирать весь текст или забанит за плагиат??? П.С. Я не занимаюсь копипастом, а пишу генератор статей:drink:.

WU

178

WSGU

29 февраля 2008, 12:44

#41

это доказывает только, что у нас разные расчеты

AL

67

A_Liss

29 февраля 2008, 13:56

#42

WSGU:
Если верить статьям самого яндекса, то для определения дублей они используют шинглы и тот факт, что уже имеется некоторая инвертированная база текстов. Я уже представлял на форуме пример работы этого алгоритма (см. тут).

Хых, от фонаря ввел два только что придуманных текста:

1. В пионерском лагере мы делали зарядку а после завтрака у нас было построение на пионерскую линейку

2. В нашем пионерском лагере проводились пионерские линейки, а по утрам нас выводили на утреннюю зарядку

Результат: "Тексты разные. Сходства нет. Рерайтинг очень хороший!"

Честно говоря, результат у меня вызывает сомнения... Врядли от перестановки местами слов текст будет считаться уникальным. (замечу, что мое мнение голословно, специальных экспериментов я не проводил, но сам работаю только с уникальными текстами написанными с нуля руками)

...

258

Bor-ka

29 февраля 2008, 13:57

#43

A_Liss,

Схожесть: 20.00%

AL

67

A_Liss

29 февраля 2008, 14:12

#44

Bor-ka:
A_Liss,
Схожесть: 20.00%

А где это посмотреть можно? Чет не увидел где схожесть в %-ах определяется

258

Bor-ka

29 февраля 2008, 14:15

#45

A_Liss:
А где это посмотреть можно? Чет не увидел где схожесть в %-ах определяется

Это я посчитал, там схожесть 0.

AL

67

A_Liss

29 февраля 2008, 14:24

#46

А, понятно :)

Пасиб

WU

178

WSGU

29 февраля 2008, 14:32

#47

A_Liss:

Врядли от перестановки местами слов текст будет считаться уникальным.

По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.

Яндекс кобласит Одинаковй текст на страницах Как дают сайту "настояться"?

[Удален]

29 февраля 2008, 19:10

#48

WSGU:
По большому счету тексты отличаются один от другого составом слов и их расположением. Если считать, что положение слов в тексте не влияет на уникальность, то это будет другая концепция, отличная от концепции, основанной на шинглах. Конечное решение какой концепции доверять - дело каждого.

Т.е., у Вас такой "подход" к этой проблеме?😆

Продолжайте в том духе.;)

WU

178

WSGU

4 марта 2008, 10:00

#49

Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

42

ИМХО

4 марта 2008, 17:36

#50

WSGU:
Добавил еще один показатель сходства текстов на основе расстояния Левенштейна - попарное сравнение и пакетное сравнение

Хорошая идея! Даже если поисковики используют другие технологии, эта должна давать неплохое ориентировочное ощущение качества рерайта.

А вы в расстоянии Левенштейна за единицу изменяемой величины используете букву или слово? Потому что при сравнении полного текста, при учете возможной синонимизации логичнее было бы использовать слово в качестве неделимого элемента.

С уважением, Константин.

Коммерческие факторы. Доверие борьба с платными ссылками Google представил новую систему

Open AI тестирует память для ChatGPT

Все что нужно знать о DDоS-атаках грамотному менеджеру

Алгоритм поиска дублей статей