Аминь.
А то последний десяток постов уже сводит с ума, своей непомерной сатиричностью. ;)
Неси палюбасу.
Диджеи. Девчат уже берите, да?
burunduk, полагаю, что общая задача дифференциации кода (на навигационные и содержательные конструкции) менее сложна, чем частные случаи, когда требуется объединить (или разделить) группы сайтов по этим, ранее выявленным, общим признакам.
Одно дело, когда мы видим значительную разницу между контентом и меню, и другое - когда мы пытаемся увидеть разницу между одним и другим меню, и одним и другим контентом.
Эта задача тем более усложняется, когда речь идёт о полнотекстовой поисковой системе (пару лет назад мне это, весьма по поводу, напомнил Платон): в одни и те же служебные тэги может быть заключена существенно разная текстовая информация, и искать признаки общности (между двумя и более сайтами) по анализу не собственно контента, а "вообще кода" - мне представляется... не рациональным. ;)
То бишь, ИМХО таково: анализ "дизайна" (структуры таблиц/блоков, имён картинок и стилей, заголовков, параграфов, тэгов оформления текста и пр.) стоит на втором (если не десятом) месте, при решении задачи выявления сети сайтов "на автомате".
Если, кстати, таковая вообще выделена в отдельную категорию.
Непонятно упорное акцентирование на дизайне, в случае автоматического бана. ИМХО, задача сравнения структуры кода сравнима с задачей распознавания скриптов, что не представляется... рациональным.
Величина тИЦа не зависит от санкций, связанных с работой поисковых алгоритмов.
И ещё сразу же не плохо бы указывать историю домена и его тематику. Короче, больше подробной информации.
MiRaj, а автоматической проверки не задумано? Не помешало бы, в т.ч. и для объективности рейтинга.
Плюс к этому - было бы неплохо подробно объяснить вебмастерам преимущества большого количества контента на их сайте, и минусы его удаления.
MiRaj, как технически реализовано отслеживание наличия статей на сайтах?
Рейтинг - да, нужен. Простой способ отследить качество площадок. Можно взять вариант adtime`а - процент "рабочести" площадки (уменьшается из-за ошибок разного рода: доступность хоста, доступность и индексация страницы, соответствие статьи оригиналу, и т.п.).
MiRaj, какие-то критерии для ссылок есть (или планируются к введению)?
MiRaj, а к ссылкам внутри статьи есть какие-то требования? Пройдут ли такие, например:
"Хотя всё это относится к любым городам, где установлены наши <a>детские площадки, Москва</a> и Питер всё же не входят в их число".
"Вы сразу увидите, как обрадуются Ваши малыши этим <a>детским комплексам и детским площадкам, детей</a>, равнодушных к нашим городкам, мы ещё не встречали".
Ну, и прочая облагороженная спамность - она выживет?