- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Уважаемый All,
У кого есть опыт успешного регулярного наполнения сайтов размноженными на основе шаблонов {||||} текстами, подскажите:
- какова должна быть длина шингла при отфильтровывании слишком похожих текстов,
- каков при этом должен быть максимальный процент схожести
с тем, чтобы избежать попадания текстов под фильтр.
Проще говоря, использование какой длины шингла и какого максимального процента схожести дадут из одного шаблона набор текстов, гарантированно не вызывающих санкций со стороны Яндекса как к неуникальному контенту?
Заранее благодарю за обоснованные мнения.
А что такое шингл?
А что такое шингл?
Нагуглил:
Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.
И вот ещё:
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь
Нагуглил:
Шингл (shingle) – это специальное хеш-значение однородной последовательности слов или фраз текста зафиксированной длины.
И вот ещё:
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание. Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте. Взято здесь
Благодарю за ответ, а вы какой программой пользуетесь для сравнения шинглов и процента схожести текстов?