Cherny

Рейтинг
120
Регистрация
19.09.2001
Кстати, никто не знает, что означает цифра 327, которая идет после кода ответа сервера?

Кстати, знает -- это ответ сервера в байтах.

Ведь по этой записи никак не определить, с www или без был запрос робота...

Это минус логов Апача, в логах IIS явно пишется host, на который пришел запрос, что меня очень радовало во время работы с сайтами на ASP. ;)

Ради прикола забросил в http://webmaster.yandex.ru/ страницу, которая запрещена в robots.txt, вот результат:

Адрес http://www.site.com/dir/file.html не был внесен в базу Яндекса, так как он запрещен к индексации в файле robots.txt, или при обращении к robots.txt сервер вернул ошибку 5xx.

Так что слушается сейчас D инструкций! 🙅

Update: припоздал малость.

Надеюсь, вопрос с вежливыми роботами на этом и исчерпается.

-=Илья=-, не исчерпается, поскольку в файле секция для всех роботов оформлена некорректно и ничего никому она не запрещает.

Нашел как раз ту тему, аккурат три года назад было 🚬

Этот вопрос уже жеван-пережеван, да и яндексоиды сейчас в дискуссии не ввязываются, как раньше.

Так что прошу меня извинить, если написал что-то не то, продолжать "наезжать" на Яндекс не хочется.

P.S. А D, кстати, robots.txt сейчас запрашивает, насчет соблюдает ли -- не проверял 🙄

Или для Вас слова "обязан" и "должен" - разные по смыслу?

Нет, не разные.

А где сотрудники Яндекса утверждали, что их робот вежливый?

Вот фразу "если вам не нравится, можете нашего робота на сайт не пускать" я где-то точно слышал или читал.

А если серьезно, то любой вежливый робот (а, надеюсь, хотя бы своего индексирующего робота "I" яндексоиды считают таки роботом, причем, вежливым) обязан соблюдать протокол файла robots.txt

К сожалению не обязан :(

Из того же документа:

It is not an official standard backed by a standards body, or owned by any commercial organisation. It is not enforced by anybody, and there no guarantee that all current and future robots will use it. Consider it a common facility the majority of robot authors offer the WWW community to protect WWW server against unwanted accesses by their robots.

Т.е. данный стандарт фактически является рекомендациями. Вот вежливый робот должен этот стандарт соблюдать, а вебмастер вправе отправить робота, игнорирующего стандарт, подальше...

Через 30 секунд, кажется.

Да, именно так.

Я ошибся, извиняюсь. :(

Ceres, не ту Оболонь пили, лучшая Оболонь - это купленная в фирменном магазинчике при заводе, которая без консервантов и не разбавленная. Но это "места надо знать"! ;)

SiriuS, цифра означает означает время в секундах между успешными запросами робота, как я и писал.

Т.е. если поставить 30, то после запроса одной страницы, следующую робот запросит не раньше, чем через полчаса.

Beginning, я, правда, не совсем программист, но что мешает написать так:

<img src="script.php?var1=<?=$var1 ?>&var2=<?=$var2 ?>">

Всего: 1011