Двойники в результатах поиска - вопрос

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
904

Вопрос для знающих людей:

Поскольку в Рунете очень много сайтов на бесплатных хостингах, и при этом они всегда попадают в базы поисковиков, любой русский поисковик при достаточно распространенном запросе выдает гору ссылок на абсолютно идентичные статьи. К примеру, если статья на тему запроса имеется на citforum.ru, то поисковик выведет не только ссылку на нее на ситфоруме, но и на всех его зеркалах. Планируется ли как-то отсеивать или понижать в ранге подобные дубликаты страниц?

И попутно, возможно ли быть исключенным из базы Рамблера? Я имею в виду, в качестве штрафа за "плохое" поведение.

Ashmanov
На сайте с 21.11.2000
Offline
66
#1

1. Рамблер - похоже, единственный поисковик, который действительно "подбирает" такие зеркала в одну статью со списком URLs в конце. Делается это на основе сигнатуры, вычисляемой для сайтов, по которой дубли склеиваются.

Иногда подбирается до 100 зеркал документов (но показывается не более 16), вы это легко можете увидеть в резульататх поиска.

Но, к сожалению, пока сигнатура эта жёсткая и малейшее отличие - текстовый баннер, битые спец-символы - приводит к тому, что документ не считается совпадающим. Возникает "дубль".

Мы сейчас разрабатываем нечёткую сигнатуру, функция близости в которой будет гладкой кривой, а не "палкой", так что близкие по смыслу (то есть по содержанию) документы она будет склеивать, а далёкие - разводить. Это штука непростая, искусственный интеллект, так сказать. От неё недалеко до автоматической классификации документов и так далее. В начале 2001 подключим, я надеюсь.

2. "Подборка" зеркал, к сожалению, логически конфликтует с подборкой документов по сайтам, как в Яндексе. Это перпендикулярные способы показа результатов. Поэтому, видимо, Яндекс и использует только один из них.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий