gray, мой сайт .net был найден не по ссылке, а был проверен, добавлен и разрешен и индексации после переписки со службой поддержки яндекса.
на данный момент яндекс приндексировал все слои, но происходило это ужасно медленно. паузы между слоями по 2-3 недели. всего сейчас проиндексено 1675 страниц.
стоп, стоп, стоп. так это совершенно официально официально что яндекс предпочитает российские домены иностранным в результатах поиска?!
то есть в индексе у страниц из !.ru стоит некий коэффициэнт < 1 который опускает эти страницы в результатах поиска? хоть я и вижу подобное поведение яндекса своими глазами, но все-таки слабо в такое верится. ужасно хотелось бы услышать комментарий кого-нибудь из яндекса, в идеале кого-то из команды программистов.
ну если это и правда так, то я пожалуй срочно откачусь обратно на запасной российский домен. и впредь под все проекты буду заказывать по два домена.
Спорить не буду, так как чуствую что получил ответ от человека из яндекса. :-)
Сдаюсь, яндекс не ходит по редиректам.
Что же касается рамблера, то не верится что сайт не прошел доменную проверку. Все прекрасно индексилось до того самого момента пока я не начал баловаться с robots.txt. Согласно логам, рамблер постоянно индексил то одно, то другое... А когда начал получать 302 на robots.txt, индексация тут же прекратилась. И в поиске по тем словам по которым сайт был на 1-м месте, теперь его вообще нету.
Очень похоже на то что редирект отработался как Disallow: /
Может я делаю и неправильный вывод из того что я вижу, но уж очень странное совпадение.
Самое обидное, что рамблер так со вчерашнего дня больше ни разу и не заходил.
217.73.192.8 - - [04/Mar/2002:00:48:02 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:01:58:00 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:02:25:17 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:02:48:10 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:14:22:32 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:15:10:58 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:15:24:51 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [04/Mar/2002:16:46:38 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:10:22:03 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:10:42:30 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:10:53:41 +0000] "GET /robots.txt HTTP/1.0" 302 275 "-" "StackRambler/1.4"
217.73.192.8 - - [05/Mar/2002:11:38:09 +0000] "GET /robots.txt HTTP/1.0" 302 273 "-" "StackRambler/1.4"
Ждем-с...
Как ни странно, но похоже на то что Яндекс ходит.
Сейчас меня это тоже удивляет, но тем не менее это факт.
Я, похоже всех тут запутал относительно того что и зачем я пытался сделать... Сейчас поясню немного на реальном примере.
Есть сайт http://kuking.net у которого кучка алиасов (kuking.ru, recipes.spb.ru и т.п.), редирект с остальных доменов на главный. Затем у нас появился новый домен taste.ru (под другой проект, но пока и его сделали миррором). Так вот лапочка яндекс его проиндексил и... неожиданно назначил главным миррором, что неправильно с идеологической точки зрения (brand-то kuking.net).
После раздумий, чесаний репы, rtfm'a и разговора с яндексоидами сделали robots.txt в котором сказано что индексить можно только kuking.net а остальное - ни-ни. Сработало. Разобрался яндекс, какой миррор главный. Даже при том что из-за изначальных настроек апача (ну тормоз я, тормоз!) при запросе (например) www.kuking.net/robots.txt роботы получали 302 и предложение пойти за этим файлом на kuking.net/robots.txt.
Яндекс вот во всем (в том числе и моих глупостях) разобрался, а рамблера это сильно смутило. Как я уже писал, уже около двух недель этот бедняга стучится головой о мое 302. ;-)
Опять же, как я уже писал - конфиги я поправил, никаких редиректов роботы больше не получат, но тем не менее факт их поведения в нестандартной ситуации любопытен.
Согласно цитате, приведенной melkov :-
The method used to exclude robots from a server is to create a file on the server which specifies an access policy for robots. This file must be accessible via HTTP on the local URL "/robots.txt".
Логично, но не описывает (желаемое) поведение роботов в случае если файла robots.txt нет. Вернее если его нет, все просто - можно индексить все подряд. А если вот такая фигня как у меня? Что делать несчастным роботам?
Согласиться на то, что дают взамен, как яндекс?
Долбиться головой об стену и ничего при этом не индексить, как это делает рамблер?
Или просто приравнять этот случай к отсутствию файла и дальше действовать по обычному сценарию?
Мне нравится последнее. В крайнем случае первое. Но никак не второе.
Это все понятно... Удивила логика рамблера.
1. Правильнее (наверное) было бы сходить по редиректу и взять то, что там предлагают. Яндекс ходит.
2. Если получаешь 302 в лоб, а что с ним делать не знаешь - проигнорируй. Ведь по-умолчанию разрешено все что не запрещено... А 302 ничего не запрещает.
3. Ну и уж тупо ломиться а одним и тем же robots.txt две недели подряд как-то вообще неприлично. :-)
Хотя, конечно же, вызвано все это моей ошибкой, вернее недостаточным продумыванией последствий моих действий. О. :-)