как обьяснить такую "индексацию" нового сайта

12
|Илья|
На сайте с 07.12.2006
Offline
97
#11

есть опыт, вылетают из индексации странички с краденым контентом, что сильно влияет на позиции, не в лучшую сторону.

Цахес
На сайте с 15.03.2007
Offline
205
#12
Brucekiev:
какой процент должен быть чужого текста на сайте

Brucekiev, не стоит забивать себе этим голову. Нет такого процента, т.к. ПС используют множество методов определения уникальности текста, следовательно, и уникальность не измеряется лишь процентным соотношением "чужого текста".

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).
[Удален]
#13
Цахес:
Brucekiev, не стоит забивать себе этим голову. Нет такого процента, т.к. ПС используют множество методов определения уникальности текста, следовательно, и уникальность не измеряется лишь процентным соотношением "чужого текста".

Не согласен. Вопрос важен.

Используется метод кластеризации точных копий по контрольной сумме. Документ сравнивается с размером страницы. Но процентное соотношение не главное. Вот в чём дело. Поэтому не нужно думать о проценте плагиата для попадания в бан.

Документ делится на части, среди них идёт поиск дублей. Они маркируются для повторного просмотра. Далее используются сортировочный подход, сортирование и нахождение подобий и вероятностный подсчет. Вероятность дублирования, основывается на маркерах в документах разных видов.

Так же всё это прогоняется по нескольким ступеням.

Сначала проверяется взаимосвязь контента и структуры. Потом находится эквивалентный контент.

Потом ищется просто похожий контент. Потом - частичное структурное соответствие уже внутри похожего контента. Потом однотематический контент проверяется.

Механизм наказания может быть до смеха простым. Бот, который нашёл на вашем сайте дубли просто к вам не пойдёт. Или будет ходить не часто, или не глубоко.

Полный бан заработать достаточно трудно. Клоакинг чужого контента, нарушение DMCA, или другие смертные грехи.

Но не забивайте себе голову процентами. Для молодого сайта достаточно снизить его вес в глазах роботов, чтобы он стал практически забаненым. Просто не берите чужого. :)

Цахес
На сайте с 15.03.2007
Offline
205
#14
bukvofil:
Не согласен. Вопрос важен.

Где же Вы увидели, что вопрос не важен?

Я про выискивание процентов "чужого текста" писал.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий