WSGU

Рейтинг
173
Регистрация
07.10.2007

Если верить статьям самого яндекса, то для определения дублей они используют шинглы и тот факт, что уже имеется некоторая инвертированная база текстов. Я уже представлял на форуме пример работы этого алгоритма (см. тут).

Losjah:
О сколько минусов в репу..😂 чувствую тему активно читают рекламодатели 🚬

Хотя тему возможности ограничения веб-мастерами минимальную цену клика уже не раз поднимали, но вывод один - приоритет отдается рекламодателю - /ru/forum/176009. Хотя мое личное мнение, что цену должны определять спрос и предложение совместно, а ни только один спрос, ведь в случае определения цены одним спросом цены будут ниже рыночных (равновесных). Но тут можно просмотреть интерес директа в уменьшении цены на рекламу.

Думаю сейчас у директа главная стратегическая цель - завоевание как можно большей доли на рынке, а не получение максимальной прибыли. Так, что вывод - ограничения минимальной цены со стороны партнеров не будет☝

сегодня получил деньги от profit-project на расчетный счет, вчера был оплачен. Хоть это и не пятый рабочий день, но все же.

Сходство оригинала и рерайта - 2%. Очень даже неплохо

У меня средняя цена в этом месяце по сравнению с январем уменьшилась на рубль (почти на треть) и составила 1.98 руб. ( хотя рано судить - февраль только начался). Но стр повысился

Roger_Wilco:
Сравнил два рерайта (из 70), созданных этой прогой (при 10 макроподстановках на 1к символов) - сходство 31%. Это считается хороший рерайт или наоборот?

Если менее 50% то нормальный. Границей уникальности (согласно статьям от яндекса) является 50% граница. Поэтому неважно, что при удалении части текста может уменьшаться процент схожести, он все равно не становиться меньше 50%, а значит такие статьи считаются дубликатами.

Kolyaj:
WSGU, яндекс не использует шинглы (про гугл ничего не скажу) хотя бы потому, что этот алгоритм требует попарного сравнения контрольных сумм. А теперь представьте, что такое попарное сравнение для миллиарда страниц. Кроме этого, алгоритм шинглов неустойчив даже по отношению к банальному изменению порядка слов. Другими словами, он максимум что может определить, так это процент копи-паста без каких-либо изменений.

Яндекс, согласно их же статьям, использует все же шинглы (супершинглы). + лексические сигнатуры. Но для оценки схожести одной статьи с другой можно обойтись только одними шинглами

kagux:
Я вполне по теме указал ошибку вашей программы

Показателем сходства является коэффициент более 50%. Так как идет сравнение не по словам, а по шинглам. Надо будет проверить

kagux:
Вы серьезно сравниваете каталог сайтов(http://seompson.org/?, причем он по-моему пустой) и сайт дизайн-студии?

Пишите по теме или откройте новую ветку. Тут можно бесконечно обсуждать что есть настоящий дизайн. Тема ветки - оценка одной статьи от другой

Seompson:
все...от пережатых картинок и цветовой схемы до самого дизайна вцелом! :)

П.С. Поддерживаю kagux... расскажите про преимущества вашего скрипта...

Скрипт использует шинглы. Причем получаем две цифры: одна получается на основе первоночальных словоформ, а вторую с использованием нормализации (приведения слов к начальной форме).

ПС

Хоть и не в тему пошел разговор. А что у вас за дизайн на http://seompson.org/? Это ваш идеал?

Всего: 866