AVV

AVV
Рейтинг
84
Регистрация
31.07.2006
zig:
Так и они должны по логике делать.

Все правильно, zig, в действиях Яндекса нет никакой логики.

P.S. Хотя..., может быть определенная логика есть:

слили поддомены > уменьшили кол-во сайтов в серпе > т.о. заставили пользователя конкретнее формулировать запрос, тем самым отсекли часть сайтов по многим продвигаемым запросам.

Своеобразная борьба с SEO.

А, может быть, все и не так, а просто уменьшили нагрузку на свои кластеры. ;)

zig:
Отрабатывают алгоритмы на "живом" поиске чтоли?

Как отрабатывают алгоритмы, загадка есть великая!

Например, у меня по забаненному сайту ходит асессор.

Спасибо, не обратил внимания, что уже обсуждалось.

Вообще, бред какой-то... Что, в рунете только 59 сайтов релевантны запросу "город"? И почему тогда эти 59 настолько релевантны, что для других места не нашлось?

Остальным, наверное, место в Директе. ;)

Тема за 11 число "Результаты внутреннего поиска по сайту в серпе":

/ru/forum/67683

Когда будете писать парсер, обратите, только внимание, что в user_agent Рамблера StackRambler/2.0 (MSIE incompatible)

присутствует слово MSIE

Основных, в данном случае, три: IE, Ореra и несколько браузеров, работающих на ядре Gecko: Firefox, Netscape Navigator и еще несколько (все они имеют в use_agent слово "Gecko").

Этими браузерами пользуются 99,9% посетителей. Так что, если у вас не будут посчитаны 3 человека со старым Netscape Navigator-ом, то, я думаю, ничего страшного. :)

У Мейла нет своего робота. Это, возможно, какие-то околохакерские штучки: Mail.Ru/1.0 libwww/5.4.0

Проанализируйте внимательно свои log-файлы.

полосатая лошадка:
У меня была мысль парсить user_agent. Но смущало то, что роботов очень много ведь.

Вполне достаточно парсить user_agent на присутствие слов:

"slurp",

"ia_archiver",

"googlebot",

"stackrambler",

"yandex",

"msnbot",

"webalta",

"aport"

Еще проще, парсить user_agent на отсутствие трех основных браузеров:

MSIE, Opera, Gecko (NN, Firefox)

Например: Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.8.0.6) Gecko/20060728 Firefox/1.5.0.6

полосатая лошадка:
А вы не могли бы сказать как выглядят user_agent самых главных "обжор"? Яндекса, Гугла и Мэйла я сама увидела, ибо они уже засветились..

"Самые главные обжоры":

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

StackRambler/2.0 (MSIE incompatible)

Yandex/1.01.001 (compatible; Win16; I)

msnbot/1.0 (+http://search.msn.com/msnbot.htm)

WebAlta Crawler/1.3.18 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

+ еще робот Апорта (так и называется, Aport). Заходит редко, но все страницы сразу жрет. Тоже - "обжора".

P.S. У Мейла нет своего робота, он пользуется выдачей Яндекса.

Recoil:
А разве после применения вышеуказанного мод_рерайта Гугл объединит все внешние ссылки с www и без в общую кучу?

Коды третьего класса (3xx) СООБЩАЮТ роботу о перенаправлениях;

Ошибка 301 - Moved Permanently. Ресурс перемещен на постоянной основе.

Всего: 3259