Вопрос по длине шингла и % схожести текстов

DS
На сайте с 10.03.2009
Offline
31
991

Уважаемый All,

У кого есть опыт успешного регулярного наполнения сайтов размноженными на основе шаблонов {||||} текстами, подскажите:

- какова должна быть длина шингла при отфильтровывании слишком похожих текстов,

- каков при этом должен быть максимальный процент схожести

с тем, чтобы избежать попадания текстов под фильтр.

Проще говоря, использование какой длины шингла и какого максимального процента схожести дадут из одного шаблона набор текстов, гарантированно не вызывающих санкций со стороны Яндекса как к неуникальному контенту?

Заранее благодарю за обоснованные мнения.

BM
На сайте с 16.02.2009
Offline
176
#1

А что такое шингл?

DS
На сайте с 10.03.2009
Offline
31
#2
Burner-M:
А что такое шингл?

Нагуглил:

Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.

И вот ещё:

Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь

BM
На сайте с 16.02.2009
Offline
176
#3
DerSoldat:
Нагуглил:

Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.

И вот ещё:
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь

Благодарю за ответ, а вы какой программой пользуетесь для сравнения шинглов и процента схожести текстов?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий