Почему Yandex игнорирует robots.txt?

12 3
Z
На сайте с 28.10.2004
Offline
50
1764

Несмотря на то, что в роботс.тхт стоит запрет, "быстрый" робот яндекса проиндексировал страницу вида "адрес сайта/add_news.php". Правда, в адресе есть еще идентификатор сессии, может быть это повлияло?

файл robots.txt:

User-Agent: *

Disallow: /reg.php

Disallow: /add_news.php

Яндекс что, к роботс не обращается?

-=Илья=-
На сайте с 05.12.2003
Offline
222
#1

"Правда, в адресе есть еще идентификатор сессии, может быть это повлияло?"

Ну так.

[Удален]
#2

-=Илья=-, причем тут идентификатор, если начальная строка указана ?

Z
На сайте с 28.10.2004
Offline
50
#3

Ага, проиндексированная ссылка выглядит так:

адрес_сайта/add_news.php?PHPSESSID=111f542c5168e87bdfcf52893ac63d4c

так что я не думаю, что сессия тут как-то повлияла.

Но даже если и так, то возникает другой вопрос - почему Янд индексирует страницы с сессиями, если в коде указано, что для user agent Яндекса сессии не должны открываться?

Код такой:

$user_agent = $_SERVER["HTTP_USER_AGENT"];

if (!(eregi('yandex',$user_agent))) {

session_start();

}

NL
На сайте с 29.01.2003
Offline
212
#4
"быстрый" робот яндекса проиндексировал страницу вида

А какой бот приходил (с какой буквой)? Как Вы узнали, что это "быстрый" робот?

NL
На сайте с 29.01.2003
Offline
212
#5

Можно попробовать поэкспериментировать и сделать в robots.txt отдельную секцию для Яндекса:

User-Agent: *
Disallow: /reg.php
Disallow: /add_news.php

User-Agent: Yandex
Disallow: /reg.php
Disallow: /add_news.php

Хуже быть не должно, будет ли лучше - нужно пробовать.

Z
На сайте с 28.10.2004
Offline
50
#6

Приходил бот с буквой I.

А насчет "быстрого" робота - когда яндекс анонсировал его появление, они писали, что можно увидеть результаты его работы в выдаче проиндексированных страниц сайта следующим образом - рядом со ссылкой стоит время (какое кол-во часов назад данная страница проиндексирована). В общем, выглядит это так:

адрес_сайта/add_news.php?PHPSESSID=111f5cf893ac63d4c (48 КБ) · 10 часов назад

Z
На сайте с 28.10.2004
Offline
50
#7

NULL, спасибо, я попробую.

А по поводу сессий кто-нибудь что-нибудь может сказать?? ни в одном форуме не могу найти ничего толкового... Знаю, что многие сталкивались с этой проблемой, поделитесь опытом, пожалуйста!

[Удален]
#8

Не знаю, у меня пока проблем нет. Я правда через strstr проверяю :)

SK
На сайте с 31.01.2005
Offline
72
#9

add_news.php судя по всему для Яндекса является конкретной страницей (здесь эта проблема в каком-то топике поднималась). Попробуйте написать add_news (тогда уж точно он должен запретить все, что начинается с add_news).

Форум "ПолитДиалог" (http://forum.politdialog.ru/): мы не правые, не левые, не за власть, не против нее. Мы - граждане России, все зависит только от нас! С уважением, Сергей Кротов.
-=Илья=-
На сайте с 05.12.2003
Offline
222
#10
Miha Kuzmin (KMY):
-=Илья=-, причем тут идентификатор, если начальная строка указана ?

При том, что эта начальная строка указывает Яндексу конкретный файл. Я уже пробовал запретить так страницы пользователей на форуме от индексации (вид index.html?user&eshe-chto-to) - не помогало. Правильнее наверное будет запрещать "file.php?". Но от идентификаторов сессий всё равно надо избавляться.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий