Процент схожести статей

12
U
На сайте с 03.08.2007
Offline
40
2282

Уважаемые оптимизаторы, подскажите, каким должен быть максимальный процент схожести статей, чтобы ПС посчитали их как уникальные? И каким способом это лучше всего проверять.

Спасибо.

Воронеж не резиновый!
A
На сайте с 19.11.2007
Offline
9
#1

Конечно, наилучшим вариантом является размещение уникальных статей. Но для рекламной кампании это слишком затратный вариант как с точки зрения времени, так и с точки зрения финансов.

Лично я размножаю статьи по следующему принципу: пишу статью, переписываю ее (глубокий рерайт) несколько раз и размножаю полученные тексты путем замены слов синонимами. При этом весь текст делю на группы до 5 слов (стоп-слова не учитываются). Т.е. беру 1 группу из 5 слов, заменяю слова в ней 2-3 синонимами, перебираю полученные слова. Таким образом, на выходе из одной статьи получается в среднем 30-50 уникальных для Яндекса статей, которые в данный момент склейке не подвергаются.

Цахес
На сайте с 15.03.2007
Offline
205
#2
UDSeo:
каким должен быть максимальный процент схожести статей, чтобы ПС посчитали их как уникальные?

Нет такого процента. Всё гораздо сложнее.

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).
U
На сайте с 03.08.2007
Offline
40
#3
Цахес:
Нет такого процента. Всё гораздо сложнее.

А можно немного "развернуть" ответ? Хотя бы направление для раздумий.

[Удален]
#4
UDSeo:
И каким способом это лучше всего проверять.

Воспользуйтесь программами для проверки на схожесть текста в сети интернет. Я пользуюсь DCFinder

U
На сайте с 03.08.2007
Offline
40
#5
Doktors:
Воспользуйтесь программами для проверки на схожесть текста в сети интернет. Я пользуюсь DCFinder

Я имею ввиду статьи для обмена, т.е. получаю я из одной скажем 1000 и сравниваю их(прога - Shingles).

Так вот, насколько уникальными они должны быть(эта программа показывает в процентах), чтобы ПС их не склеили?

Цахес
На сайте с 15.03.2007
Offline
205
#6

UDSeo, почитайте про методы определения дубликатов.

E
На сайте с 25.01.2007
Offline
72
#7
UDSeo:
(прога - Shingles).

можно ссылочку на прогу?

R
На сайте с 30.05.2007
Offline
163
#8
egoryich:
можно ссылочку на прогу?

/ru/forum/comment/2702101

Botan
На сайте с 18.09.2007
Offline
12
#9

В статье главного разработчика Яндекса Ильи Сегаловича описывается метод, при помощи которого Яндекс обнаруживает копии.

- - - -

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

...

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

U
На сайте с 03.08.2007
Offline
40
#10

Программа Shingles - подойдет для проверки уникальности статей? Если да, то какой процент она должна показывать?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий