WSGU

Рейтинг
178
Регистрация
07.10.2007

Представляю сервис для пакетной оценки текстов на сходство между собой. Программа работает на основе шинглов. Это нужно для оценки работы рерайтеров. Можно приобрести тут себе данную программу без ограничений (но без нормализации) за $10.

Вот еще сервис для сравнения двух статей на схожесть на основе шинглов

И вот тут можно скачать себе (правда без нормализации, для работы нужет php и zend)

Если верить статьям самого яндекса, то для определения дублей они используют шинглы и тот факт, что уже имеется некоторая инвертированная база текстов. Я уже представлял на форуме пример работы этого алгоритма (см. тут).

Losjah:
О сколько минусов в репу..😂 чувствую тему активно читают рекламодатели 🚬

Хотя тему возможности ограничения веб-мастерами минимальную цену клика уже не раз поднимали, но вывод один - приоритет отдается рекламодателю - /ru/forum/176009. Хотя мое личное мнение, что цену должны определять спрос и предложение совместно, а ни только один спрос, ведь в случае определения цены одним спросом цены будут ниже рыночных (равновесных). Но тут можно просмотреть интерес директа в уменьшении цены на рекламу.

Думаю сейчас у директа главная стратегическая цель - завоевание как можно большей доли на рынке, а не получение максимальной прибыли. Так, что вывод - ограничения минимальной цены со стороны партнеров не будет☝

сегодня получил деньги от profit-project на расчетный счет, вчера был оплачен. Хоть это и не пятый рабочий день, но все же.

Сходство оригинала и рерайта - 2%. Очень даже неплохо

У меня средняя цена в этом месяце по сравнению с январем уменьшилась на рубль (почти на треть) и составила 1.98 руб. ( хотя рано судить - февраль только начался). Но стр повысился

Roger_Wilco:
Сравнил два рерайта (из 70), созданных этой прогой (при 10 макроподстановках на 1к символов) - сходство 31%. Это считается хороший рерайт или наоборот?

Если менее 50% то нормальный. Границей уникальности (согласно статьям от яндекса) является 50% граница. Поэтому неважно, что при удалении части текста может уменьшаться процент схожести, он все равно не становиться меньше 50%, а значит такие статьи считаются дубликатами.

Kolyaj:
WSGU, яндекс не использует шинглы (про гугл ничего не скажу) хотя бы потому, что этот алгоритм требует попарного сравнения контрольных сумм. А теперь представьте, что такое попарное сравнение для миллиарда страниц. Кроме этого, алгоритм шинглов неустойчив даже по отношению к банальному изменению порядка слов. Другими словами, он максимум что может определить, так это процент копи-паста без каких-либо изменений.

Яндекс, согласно их же статьям, использует все же шинглы (супершинглы). + лексические сигнатуры. Но для оценки схожести одной статьи с другой можно обойтись только одними шинглами

kagux:
Я вполне по теме указал ошибку вашей программы

Показателем сходства является коэффициент более 50%. Так как идет сравнение не по словам, а по шинглам. Надо будет проверить

Всего: 868