Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.
Вот еще сервис для сравнения двух статей на схожесть на основе шинглов
И вот тут можно скачать себе (правда без нормализации, для работы нужет php и zend)
Если верить статьям самого яндекса, то для определения дублей они используют шинглы и тот факт, что уже имеется некоторая инвертированная база текстов. Я уже представлял на форуме пример работы этого алгоритма (см. тут).
Хотя тему возможности ограничения веб-мастерами минимальную цену клика уже не раз поднимали, но вывод один - приоритет отдается рекламодателю - /ru/forum/176009. Хотя мое личное мнение, что цену должны определять спрос и предложение совместно, а ни только один спрос, ведь в случае определения цены одним спросом цены будут ниже рыночных (равновесных). Но тут можно просмотреть интерес директа в уменьшении цены на рекламу.
Думаю сейчас у директа главная стратегическая цель - завоевание как можно большей доли на рынке, а не получение максимальной прибыли. Так, что вывод - ограничения минимальной цены со стороны партнеров не будет☝
сегодня получил деньги от profit-project на расчетный счет, вчера был оплачен. Хоть это и не пятый рабочий день, но все же.
Сходство оригинала и рерайта - 2%. Очень даже неплохо
У меня средняя цена в этом месяце по сравнению с январем уменьшилась на рубль (почти на треть) и составила 1.98 руб. ( хотя рано судить - февраль только начался). Но стр повысился
Если менее 50% то нормальный. Границей уникальности (согласно статьям от яндекса) является 50% граница. Поэтому неважно, что при удалении части текста может уменьшаться процент схожести, он все равно не становиться меньше 50%, а значит такие статьи считаются дубликатами.
Яндекс, согласно их же статьям, использует все же шинглы (супершинглы). + лексические сигнатуры. Но для оценки схожести одной статьи с другой можно обойтись только одними шинглами
Показателем сходства является коэффициент более 50%. Так как идет сравнение не по словам, а по шинглам. Надо будет проверить