Двойники в результатах поиска - вопрос

482

Sergey Petrenko

23 ноября 2000, 04:36

929

Вопрос для знающих людей:

Поскольку в Рунете очень много сайтов на бесплатных хостингах, и при этом они всегда попадают в базы поисковиков, любой русский поисковик при достаточно распространенном запросе выдает гору ссылок на абсолютно идентичные статьи. К примеру, если статья на тему запроса имеется на citforum.ru, то поисковик выведет не только ссылку на нее на ситфоруме, но и на всех его зеркалах. Планируется ли как-то отсеивать или понижать в ранге подобные дубликаты страниц?

И попутно, возможно ли быть исключенным из базы Рамблера? Я имею в виду, в качестве штрафа за "плохое" поведение.

Ashmanov

23 ноября 2000, 23:36

1. Рамблер - похоже, единственный поисковик, который действительно "подбирает" такие зеркала в одну статью со списком URLs в конце. Делается это на основе сигнатуры, вычисляемой для сайтов, по которой дубли склеиваются.

Иногда подбирается до 100 зеркал документов (но показывается не более 16), вы это легко можете увидеть в резульататх поиска.

Но, к сожалению, пока сигнатура эта жёсткая и малейшее отличие - текстовый баннер, битые спец-символы - приводит к тому, что документ не считается совпадающим. Возникает "дубль".

Мы сейчас разрабатываем нечёткую сигнатуру, функция близости в которой будет гладкой кривой, а не "палкой", так что близкие по смыслу (то есть по содержанию) документы она будет склеивать, а далёкие - разводить. Это штука непростая, искусственный интеллект, так сказать. От неё недалеко до автоматической классификации документов и так далее. В начале 2001 подключим, я надеюсь.

2. "Подборка" зеркал, к сожалению, логически конфликтует с подборкой документов по сайтам, как в Яндексе. Это перпендикулярные способы показа результатов. Поэтому, видимо, Яндекс и использует только один из них.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard

Двойники в результатах поиска - вопрос