Cherny

Рейтинг
120
Регистрация
19.09.2001

При запрете индексации страниц сайта, Гугл все равно показывает ссылки на эти страницы без каких-либо описаний. Можно предположить, что робот проверяет существование страницы. Таким образом, просто сравнив размеры файлов, например, можно натравливать робота-зеркальщика.

Ошибочка вышла. Между словами User и Agent необходим дефис.

Извиняюсь, прозевал.

нет, если главная страница это ввв домен ру, то Disallow: /index.html - бесполезен, не проще meta прописать?

Вопрос был о запрете индексации одной страницы. Пример получился неудачный. Пусть будет так:


User-Agent: *
Disallow: /news.html

А вот как будут вести себя роботы, если написать index.html, а ссылки есть как www.domain.ru, так и www.domain.ru/index.html?

Как писал Kokoc
Возможно ли запретить индексацию одной страницы посредством robots.txt?

IMHO, можно написать примерно так:


UserAgent: *
Disallow: /index.html

При этом страница index.html индексироваться не будет, а все остальное вполне нормально проиндексируется.

Как писал groul
При попытке зарегистрировать сайт в каталоге Апорта (страница http://catalog.aport.ru/rus/reg/add.ple), выдается сообщение:

=====================
ОШИБКА!
403 Access Forbidden
=====================

Какие идеи?

Все нормально уже. Может утром исправили?

Как писал Piglet
Нигде не смог найти. Помогите пожалуйста.

На этом форуме целый топик посвящен именно IP роботов, если вы роботов имели в виду ;-)

Как писал AnnaP
Здравствуйте, хочу создать программку, а вдруг такая уже есть и я зря буду мучаться?

Посмотрите ветку эту форума, домашняя страница здесь.

Как писал pelmen
А какой User Agent у Look Smart-овского бота?

Looksmart - каталог.

Но некоторое время назад они купили WizeNut, бот которого идентифицирует себя так: Mozilla/4.0 compatible ZyBorg/1.0 (wn.zyborg@looksmart.net; http://www.WISEnutbot.com)

Как писал Space
В любом случае - как можно узнать (кроме изучения логов) когда робот последний раз прошелся по сайту.

Можно использовать простой текстовый счетчик на Perl либо PHP.

Как писал Kost
Разве в Яндексе показывается не дата последнего изменения документа (заголовок Last-Modified, выданный сервером роботу про последней (пере)индексации) ? Это совсем не дата включения в индекс. А если сервер такой заголовок не выдает (или выдает сиюминутную дату), то никакой даты не показывается вообще.

И в Яндексе и в Рамблере показывается дата последнего изменения документа, которую выдает сервер в Last-Modified. Если сервер выдает текущую дату в Last-Modified, то она и отображается как дата последнего изменения и совпадает с датой посещения страницы роботом. Если сервер такой заголовок не выдает, то никакая дата не отображается ИМХО.

Всего: 1011