В текущем виде да. Современные алгоритмы анализа ссылочной структуры (например, HITS) выделяют сообщества сайтов, и это гораздо полезней, чем просто ссылки вперемешку. Но сообщества надо как-то представлять. Многоколоночный дизайн с монитора рассматривать неудобно, и решение Kartoo -- один из возможных шагов на этом пути.
С уважением,
Александр Садовский.
Уже довольно давно существует польская версия Яндекса. Когда-то Илья говорил, что безо всякой рекламы его посещаемость неплохо выросла. Я не знаю текущее состояние дел, но, думаю, посетители есть.
Насколько мне известно, Яндекс индексирует не сайты, а только страницы с высоким ВИЦ, да и то лишь те, которые могут быть выданы в качестве найденных по ссылке -- чтобы текст в аннотации был адекватным содержанию.
Вот еще страница с дубликатами:
http://yandex.ru/yandsearch?text=pagerank
На первом месте оригинал моей статьи, на третьем -- копия. На седьмом месте оригинал статьи Артема, а на втором и четвертом -- копии.
Что касается определения оригинала, это действительно непросто. Отчасти проблему может решить анализ ссылок. Если суметь выделить в дубликатах имя или e-mail автора, то дополнительную информацию может дать анализ встречаемости имени (e-mail) на страницах сайтов, где расположен текст. Дата появления страницы не всегда хороший критерий, хотя очередность появления дублей может играть роль. Что-то еще?
В удалении дублей есть еще одна проблема -- доступность сервера. Нельзя гарантировать, что та или иная страница доступна всегда и всем. Думаю, лучше выдавать ссылки на несколько дублей, сделав, разве что, их более короткими. Например, в такой форме:
<title>
<описание сайта>
http://subdomain.domain.ru/dir/subdir/file.html Дубли: 1|2|3|>>
где URL соответствует предполагаемому оригиналу;
1, 2 и 3 -- ссылки на дубли, при наведении на них курсора мыши высвечивается URL;
значок >> перекидывает на полный список дублей.
Тенденция, скорее, в другом -- беря деньги, HotLog не вносит в свои данные никакой добавочной ценности. Большинство отчетов легко получаются даже бесплатными программами анализа логов. Следовательно, основная масса их потенциальных клиентов -- это либо те, кто не способен найти в сети и инсталлировать программу анализа логов, либо те, кто не может позволить себе платный хостинг.
Я считаю, что и Спайлог, и Хотлог выбрали неверную стратегию перехода на платные рельсы. Ориентироваться надо на крупные и средние сайты, которые могут получить реальную выгоду от анализа статистики. Но здесь есть маленькая тонкость: большинство людей не знают, какие данные они должны анализировать, как именно, и что можно из этого получить. На семинаре в Москве я говорил с Кузьминым, он сказал, что HotLog собирается увеличивать число отчетов, но Андрей не чувствовал разницы между отчетами, полезными для бизнеса, и шелухой вроде количества цветов монитора.
Следовательно, будь я на месте этих счетчиков, я бы для начала организовал серию бесплатных семинаров и обучающих тренингов, рассказывающих о том, как нужно пользоваться статистикой для увеличения прибылей; выложил бы цикл статей на эту тему. Для желающих изучить тему глубже, сделал бы платное обучение. Убрал бы все лишние отчеты, сделав акцент на тех, которые действительно представляют собой интерес -- и машинные ресурсы экономятся, и трафик меньше, и пользы больше. Сделал бы более гибкую схему оплаты -- скажем, не ежемесячные взносы за постоянный мониторинг данных, а плату за доступ к отчетам. И т.д. Пока же такое впечатление, что в руководстве обоих счетчиков сидят инженеры, а не бизнесмены.
Google многократно заявлял, что результаты не влияют на ранжирование сайтов, а служат только исследовательским целям. Скорее всего, пока это так и есть -- вряд ли результаты используются для чего-то большего, чем проверка на спам.
В общем случае эти результаты могут быть более полезны, так как способны повысить точность ранжирования (очевидно, что это они будут дополнением к другим методам -- только на голосование никто полагаться не будет). Данные голосования можно применить для вычисления схожих страниц ("те, кому нравится эта страница, выбирают также..."). Оно может быть инструментом отслеживания трудных запросов -- если вы голосуете против страницы Google с результатами запроса, значит, скорее всего, они никуда не годятся. И т.д. Все эти методы пока не используются, но вполне могут стать реальностью через месяц или полгода.
Обнаружил небольшой глюк vB -- если в теге URL задать адрес, содержащий кавычки, он не становится ссылкой, а высвечивается как текст. Надо бы поправить.
Кстати, еще небольшой минус, касающийся очень удобной возможности vBulletin -- "Новые сообщения". В этом списке, даже если топик превышает одну страницу, высвечивается только ссылка на начало топика. Логичней было бы видеть ссылку на страницу с действительно новыми сообщениями. Если найдется хак для vB, исправляющий это, буду рад его видеть в действии.
По ощущениям дублей стало меньше, хотя достоверно сказать не могу -- часто задаваемые мною запросы и так не содержали дублей.
А в целом дубли еще есть, например, вот такие:
http://yandex.ru/yandsearch?text=%C1%E0%F1%F0%E8%E5%E2&stype=
Ссылка на сайт в целом, а не на конкретную страницу.
Подробности см. тут:
Эксперименты. Нетрудно проверить, что и порог ненулевой, и ВИЦ учитывается далеко не прямопропорционально.