Робот Яндекса - повторяется!

12
di_max
На сайте с 27.12.2006
Offline
262
1067

Сегодня робот "Yandex/1.01.001 (compatible; Win16; I)" скачивал сайт.

И вдруг вижу, что он запрашивает страницу - удаленную с сайта еще в начале января.

И не одну, а много таких!

Поискал в логах за январь и нашел, что 15.01 "Yandex/1.01.001 (compatible; Win16; I)" запрашивал эту страницу и получил 404, так как она удалена.

- Что не спокойно в Датском королевстве!

Ни кто не замечал подобного на своих ресурсах?

Ведь, по идее, получив 404 код, робот большее ее не должен запрашивать этот URL.

А если запрашивает, то...

ИМХО: - В Яндексе "откатили" часть базы урлей, на состояние до(!) 15 января.

// Все наши проблемы от нашего не знания...
di_max
На сайте с 27.12.2006
Offline
262
#1

Пока, самуюю "раннюю" такую пару нашел в логе за 11 января.

TOP GUN
На сайте с 21.11.2003
Offline
115
#2

Мож и откатили. Но я посмотрел бы, не имееются ли ссылки откуда нибудь на эти страницы, которых уже нет.

di_max
На сайте с 27.12.2006
Offline
262
#3
TOP GUN:
Мож и откатили. Но я посмотрел бы, не имееются ли ссылки откуда нибудь на эти страницы, которых уже нет.

Это внутренняя страница. Ее не двигали, так как она "новогодняя".

1,5 месяца провесела, до Нового года, и сняли, как не актуальную.

Вторую пару - это уже по другому ресурсу нашел.

Там ситуация с появлением и снятием страницы - аналогичная.

Пробивал по расширенному поиску - отрицательно.

TOP GUN
На сайте с 21.11.2003
Offline
115
#4
di_max:
Пробивал по расширенному поиску - отрицательно.

Ни факт. Яндекс не все ссылки показывает ;)

То, что они были временные, не означает что кто то увидел их и не поставил на них ссылки. Смотрите через Яху,MSN.

di_max
На сайте с 27.12.2006
Offline
262
#5
TOP GUN:
То, что они были временные, не означает что кто то увидел их и не поставил на них ссылки. Смотрите через Яху,MSN.

Конечно, такая вероятность существует, но очень мала...

Проверил. Для 2- разных сайтов - нет ссылок на эти страницы...

Возможно это и оказывает влияние расклбас с АПА-ми: "быстро-АП-ы", откаты АП-ов, пере-недо АП-ов...

MASe
На сайте с 17.09.2002
Offline
219
#6
di_max:
Ведь, по идее, получив 404 код, робот большее ее не должен запрашивать этот URL.

кстати, я бы не был так категоричен... в топе, кстати, частенько встречаю страницы 404, котоыре преспокойно висят в выдаче годами... (не коммерчесеи, не куонкурентные тематики)

по этому же конкретному случаю - для меня бы было логично страницы с 404 откидывать в спец.базу, и потом все же возвращаться (1-2) раза, дабы убедиться - что ее собственно нет окончательно...

ведь мало ли какие нюансы - хостинг, сервер, глюк, ддос, хак и проч.

поставьте себя на место яндекса - вы звоните другу - у него телефон не доступен... вам бы и успокоится, ан нет - вы еще пару раз наберете, дабы убедиться что он реально недоступен (спит, пьет, гуляет на фиг без телефона), а не едет в метро или в тоннелле...

такая логика с точки зрения поисковиков, я считаю уместна... особенно если дело касается внутренних страниц...

ИМХО

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
di_max
На сайте с 27.12.2006
Offline
262
#7
MASe:
кстати, я бы не был так категоричен... в топе, кстати, частенько встречаю страницы 404, котоыре преспокойно висят в выдаче годами... (не коммерчесеи, не куонкурентные тематики)

Из серии "найден по ссылке"?..

Это известное дело... Такие долго храняться.

MASe:

по этому же конкретному случаю - для меня бы было логично страницы с 404 откидывать в спец.базу, и потом все же возвращаться (1-2) раза, дабы убедиться - что ее собственно нет окончательно...

Предлагаете применить код 410?

MASe:

ведь мало ли какие нюансы - хостинг, сервер, глюк, ддос, хак и проч.

В этих случаях робот бы мог просто НЕ дождаться ответа.

В данном случае - код ответа есть.

MASe:

такая логика с точки зрения поисковиков, я считаю уместна... особенно если дело касается внутренних страниц...

ИМХО

Согласен, с такой точки зрения - Вы правы.

404 код = сервер не нашел ничего соответствующего Request-URI.

То есть, Вы позвонили, а Вам ответили, что такой тут больше не живет.

- Сколько еще раз будете перезванивать?;)

MASe
На сайте с 17.09.2002
Offline
219
#8
di_max:
Предлагаете применить код 410?

может имеет смысл в robots.txt отрубить эту страницу...

в этом случае робот посмотрит на страницу, ее нет, проверит свои догадки в роботсе - точно - просят удалить... и сразу мимо базы выбьет...

ну и через яндекс-вебмастер попросить страницу удалить через спец.форму (читай - тот же роботс и поможет)...

K. Ermakov
На сайте с 10.12.2004
Offline
328
#9
di_max:
Ведь, по идее, получив 404 код, робот большее ее не должен запрашивать этот URL

А вы в этой идее уверены?

di_max:
А если запрашивает, то...

То что?

di_max:
ИМХО: - В Яндексе "откатили" часть базы урлей, на состояние до(!) 15 января

Что это за база такая? Что в ней хранится вместе с URL? По каким причинам, как вы думаете, её откатывать бы стали?

С уважением, Константин Ермаков, absite.ru: онлайн кроссворды (http://absite.ru/); searchsuggest.ru: поисковые подсказки доставляют (http://searchsuggest.ru/).
di_max
На сайте с 27.12.2006
Offline
262
#10
MASe:
может имеет смысл в robots.txt отрубить эту страницу...
в этом случае робот посмотрит на страницу, ее нет, проверит свои догадки в роботсе - точно - просят удалить... и сразу мимо базы выбьет...

ну и через яндекс-вебмастер попросить страницу удалить через спец.форму (читай - тот же роботс и поможет)...

В данном случае, когда на ресурсе 15к страниц и обновляемость <=20% страниц в месяц, роботс.тхт распухнет...

И через роботс.тхт будет не отследить - можно ли эту строку в нем удалить или еще нет.

При удалением через форму - Яндекс требует, что бы сервер вернул... 404 код для данного URL.

Круг замкнулся.;)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий