При запрете индексации страниц сайта, Гугл все равно показывает ссылки на эти страницы без каких-либо описаний. Можно предположить, что робот проверяет существование страницы. Таким образом, просто сравнив размеры файлов, например, можно натравливать робота-зеркальщика.
Извиняюсь, прозевал.
Вопрос был о запрете индексации одной страницы. Пример получился неудачный. Пусть будет так:
User-Agent: * Disallow: /news.html
А вот как будут вести себя роботы, если написать index.html, а ссылки есть как www.domain.ru, так и www.domain.ru/index.html?
IMHO, можно написать примерно так:
UserAgent: * Disallow: /index.html
При этом страница index.html индексироваться не будет, а все остальное вполне нормально проиндексируется.
Все нормально уже. Может утром исправили?
На этом форуме целый топик посвящен именно IP роботов, если вы роботов имели в виду ;-)
Посмотрите ветку эту форума, домашняя страница здесь.
Looksmart - каталог.
Но некоторое время назад они купили WizeNut, бот которого идентифицирует себя так: Mozilla/4.0 compatible ZyBorg/1.0 (wn.zyborg@looksmart.net; http://www.WISEnutbot.com)
Можно использовать простой текстовый счетчик на Perl либо PHP.
И в Яндексе и в Рамблере показывается дата последнего изменения документа, которую выдает сервер в Last-Modified. Если сервер выдает текущую дату в Last-Modified, то она и отображается как дата последнего изменения и совпадает с датой посещения страницы роботом. Если сервер такой заголовок не выдает, то никакая дата не отображается ИМХО.
sitename site:www.sitename.com