Вопрос по длине шингла и % схожести текстов

DS

31

DerSoldat

24 января 2010, 18:56

1030

Уважаемый All,

У кого есть опыт успешного регулярного наполнения сайтов размноженными на основе шаблонов {||||} текстами, подскажите:

- какова должна быть длина шингла при отфильтровывании слишком похожих текстов,

- каков при этом должен быть максимальный процент схожести

с тем, чтобы избежать попадания текстов под фильтр.

Проще говоря, использование какой длины шингла и какого максимального процента схожести дадут из одного шаблона набор текстов, гарантированно не вызывающих санкций со стороны Яндекса как к неуникальному контенту?

Заранее благодарю за обоснованные мнения.

BM

176

Burner-M

24 января 2010, 19:04

#1

А что такое шингл?

DS

31

DerSoldat

24 января 2010, 19:14

#2

Burner-M:
А что такое шингл?

Нагуглил:

Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.

И вот ещё:

Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь

BM

176

Burner-M

24 января 2010, 22:06

#3

DerSoldat:
Нагуглил:

Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.

И вот ещё:
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь

Благодарю за ответ, а вы какой программой пользуетесь для сравнения шинглов и процента схожести текстов?

Google: E-E-A-T не является фактором ранжирования

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ