Процент схожести статей

40

UDSeo

8 февраля 2008, 08:09

2290

Уважаемые оптимизаторы, подскажите, каким должен быть максимальный процент схожести статей, чтобы ПС посчитали их как уникальные? И каким способом это лучше всего проверять.

Спасибо.

Воронеж не резиновый!

A

9

Altruism

8 февраля 2008, 09:22

#1

Конечно, наилучшим вариантом является размещение уникальных статей. Но для рекламной кампании это слишком затратный вариант как с точки зрения времени, так и с точки зрения финансов.

Лично я размножаю статьи по следующему принципу: пишу статью, переписываю ее (глубокий рерайт) несколько раз и размножаю полученные тексты путем замены слов синонимами. При этом весь текст делю на группы до 5 слов (стоп-слова не учитываются). Т.е. беру 1 группу из 5 слов, заменяю слова в ней 2-3 синонимами, перебираю полученные слова. Таким образом, на выходе из одной статьи получается в среднем 30-50 уникальных для Яндекса статей, которые в данный момент склейке не подвергаются.

205

Цахес

8 февраля 2008, 10:30

#2

UDSeo:
каким должен быть максимальный процент схожести статей, чтобы ПС посчитали их как уникальные?

Нет такого процента. Всё гораздо сложнее.

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).

U

40

UDSeo

8 февраля 2008, 10:40

#3

Цахес:
Нет такого процента. Всё гораздо сложнее.

А можно немного "развернуть" ответ? Хотя бы направление для раздумий.

[Удален]

8 февраля 2008, 10:41

#4

UDSeo:
И каким способом это лучше всего проверять.

Воспользуйтесь программами для проверки на схожесть текста в сети интернет. Я пользуюсь DCFinder

U

40

UDSeo

8 февраля 2008, 10:55

#5

Doktors:
Воспользуйтесь программами для проверки на схожесть текста в сети интернет. Я пользуюсь DCFinder

Я имею ввиду статьи для обмена, т.е. получаю я из одной скажем 1000 и сравниваю их(прога - Shingles).

Так вот, насколько уникальными они должны быть(эта программа показывает в процентах), чтобы ПС их не склеили?

205

Цахес

8 февраля 2008, 11:00

#6

UDSeo, почитайте про методы определения дубликатов.

E

72

egoryich

17 февраля 2008, 08:15

#7

UDSeo:
(прога - Shingles).

можно ссылочку на прогу?

R

163

ruslg

17 февраля 2008, 09:36

#8

egoryich:
можно ссылочку на прогу?

/ru/forum/comment/2702101

12

Botan

17 февраля 2008, 16:59

#9

В статье главного разработчика Яндекса Ильи Сегаловича описывается метод, при помощи которого Яндекс обнаруживает копии.

- - - -

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

...

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

U

40

UDSeo

18 февраля 2008, 13:18

#10

Программа Shingles - подойдет для проверки уникальности статей? Если да, то какой процент она должна показывать?

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, чтобы попасть в ответы Google Bard