Как определяются зеркала?

esergey · 2004-01-05T00:32:25.0000000Z

Как поисковики, в частности Яндекс определяют зеркала?

120

Cherny

5 января 2004, 09:49

#11

Avatar, у меня есть два зеркала: site1.com, site2.com. Просто два домена запаркованы на один сайт. На site1.com есть ссылки, он постарше будет, Яндексу уже больше года известен, site2.com молод и свеж :)

Однако я хочу, чтобы главным зеркалом был site2.com, несмотря на молодость и свежесть, о чем сообщил Яндексу директивой Host. Теперь, действительно, site1.com в Яндексе запрещен к индексированию, только в выдаче все равно остается именно он, хотя уже несколько апдейтов прошло и зеркальщик в гости заглядывал.

Так что нужно еще ждать и иногда достаточно долго. В моем случае завтра два месяца будет.

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

96

esergey

5 января 2004, 19:31

#12

По идентичному содержанию страниц.

Ты точно знаешь или это твое предположение? Я вначале тоже так считал, но тут вычитал фразу что гугл умеет определять виртуальные сервера. Вот и думаю, как же определяются зеркала?

Поиск книг в интернет магазинах (http://bookza.ru)

E

6

Edward

7 января 2004, 12:12

#13

рискну предположить, что делается это с помощью хэширования или нечто подобного. Это предположение просто с точки зрения ресурсоемкости задачи, фактов нет.

E

96

esergey

7 января 2004, 19:31

#14

Как писал Edward
рискну предположить, что делается это с помощью хэширования или нечто подобного. Это предположение просто с точки зрения ресурсоемкости задачи, фактов нет.

Я не совсем понял. Что такое хеширование?

VC

127

VIC

7 января 2004, 23:57

#15

Как писал esergey

Ты точно знаешь или это твое предположение?

Мил человек, точно знают программисты поисковиков. Они сюда иногда заходят, но о деталях алгоритмов не распространяются. :)

Что такое хеширование?

Ну как это объяснить человеку с такой подписью и Occupation=Programmer в профайле... Только на спичках.

Грубо говоря, для данного случая, - "свертка" страниц сайта в более компактные структуры данных, которые можно быстрее сравнивать. Алгоритм свертывания, естественно, должен исключать случайное совпадение сверток для разных страниц. Рискну предположить, что набор частичных CRC по пересекающимся блокам определенного размера будет характеризовать страницу вполне однозначно, чтобы ее нельзя было спутать с какой-то другой. А сравнить такие наборы для двух страниц куда быстрее, чем сравнивать страницы побайтно. Соответственно, поиск "зеркала" в базе намного ускоряется. Этот же набор CRC позволит судить о степени изменения содержимого страницы со времени предыдущего обсчета.

Но это, как и все прочее - предположение... ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Google: E-E-A-T не является фактором ранжирования