Индексирование динамических страниц (CGI,SSI)

K
На сайте с 17.10.2001
Offline
12
1435

Вопросы:

1. Как различные поисковики относятся к динамическим страницам, сверстанным с SSI? И в связи с этим:

- Стоит ли *.shtml "прятать" в *.html ?

- Не игнорируются ли конструкции вида *.shtml?<параметры> ?

2. Как поисковики относятся к cgi-bin "зоне" и стоит ли ее тоже "прятать"?

По своим наблюдениям я делаю вывод, что Яндекс, например, индексирует все подряд. Рамблер вообще не желает видеть cgi-bin, при этом *.shtml индексирует хорошо, а к *.shtml?<параметры> относится, мягко говоря, настороженно. Хотелось ьы узнать, прав ли я, и как поступают другие поисковики (Google, Aport, Lycos и т.п.)

M9
На сайте с 20.01.2001
Offline
65
#1

Можешь у меня посмотреть:

http://www.raskrutka.net/dynamic.html

Там целая таблица по индексации поисковиками динамического контента.

С уважением, Павел Ряйкконен. Игры от НевоСофт (http://www.nevosoft.ru) Раскрутка.Net - реклама, маркетинг, поисковые системы (http://www.raskrutka.net)
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Master99

Ай-ай-ай

Kiwi

Ну, ты, вроде бы, давно на форуме, а эти вопросы уже обсуждались, и не раз.

Как различные поисковики относятся к динамическим страницам, сверстанным с SSI?

Никак не относятся. Индексируют абсолютно спокойно. Все директивы SSI выполняются на сервере до передачи страницы броузеру или роботу.

- Стоит ли *.shtml "прятать" в *.html ?

Не имеет значения.

- Не игнорируются ли конструкции вида *.shtml?<параметры> ?

Вот это уже зависит. Такую конструкцию воспримут Яндекс и Google. Остальные динамику не индексируют.

2. Как поисковики относятся к cgi-bin "зоне" и стоит ли ее тоже "прятать"?

А точно также. Если это чистый html на выдаче, то все нормально. А если встречаются параметры - читай выше.

K
На сайте с 17.10.2001
Offline
12
#3

Gray

Никак не относятся. Индексируют абсолютно спокойно. Все директивы SSI выполняются на сервере до передачи страницы броузеру или роботу.

То что делается на сервере, поисковику не видно - это понятно. Просто есть сайт, который весь на *.shtml. Наступило время его реструктуризации и редизайна...

Я принял такое решение: прятать shtml в html (как я понял из ответа - это делать не обязательно) и работать с минимумом параметров. То есть, например, corpnews.shtml?a=b спрятать в corpnews_b.shtml (при этом появится куча новых файлов + соответственно надо будет править систему управления контентом), вот я и хочу выяснить: стоит ли игра свеч...

Всем

Спасибо за ответы!

[This message has been edited by Kiwi (edited 02-02-2002).]

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#4

Рекомендую сделать иначе - если на сервере установлен mod_rewrite, использовать его для динамического переопределения запросов. Т.е. физически будет страница corpnews.shtml?a=b, а запросы будут направляться на страницу, например, corpnews/shtml/a/b.

[Удален]
#5

Проблемы с SSI есть. Если не предпринимать никаких мер, SSI-страницы не выдают правильную дату. А Яндекс и пр. в этом случае реже делают обход. Я неправ?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#6

Если не подумать об этом на стадии написания скрипта, то страницы просто не будут выдавать дату - ни правильную, ни какую-либо вообще.

Правда, несмотря на именно такую особенность движка на этом сайте, Яндекс регулярно ходит и индексирует сайт. Так что не могу сказать, чтобы это мешало сайту.

I
На сайте с 15.12.2000
Offline
80
#7

Яндекс за 1 проход по сайту скачивает определенное количество страниц. Если про некую страницу яндексу известна ее дата (сервер в прошлый раз вернул Last-Modified), то яндекс запрашивает ее с заголовком If-Modified-Since, на каковой заголовок сервер имеет полное право вернуть 304 код.

Таким образом робот будет успевать за один заход скачивать большее число документов, реально изменившихся или еще не проиндексированных.

У-ф.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#8

Яндекс за 1 проход по сайту скачивает определенное количество страниц

Это какое-то определенное число? Или, манипулируя заголовком, можно заставить робота скачать весь сайт заново?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий