Индексация папки /cgi-bin/

S
На сайте с 05.09.2001
Offline
15
Sly
1662

Случайно узнал, что поисковики не индексируют папку /cgi-bin/. Это правда ? Просто скриптец поставил, новостной, а он публикует новости в виде html файлов, но в папке /cgi-bin/.

NS
На сайте с 07.09.2001
Offline
6
#1

Мне пришлось наоборот папку /cgi-bin/ закрывать от робота - т.е. у меня ротбот пытался эту папку индексировать

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Еще как индексируют. Зайдите в Яндекс и поищите что-нибудь на этом сайте - вы получите большой список скриптов, проиндексированных роботом. Причем некоторые скрипты оказываются релевантнее обычных страниц .

2 Sly: а что, сложно переставить место записи файлов? Или у тебя SSI используется?

S
На сайте с 05.09.2001
Offline
15
Sly
#3

<font face="Verdana" size="2">Originally posted by Gray:
2 Sly: а что, сложно переставить место записи файлов? Или у тебя SSI используется?</font>

Да я ещё толком со скриптом не разобрался. Пытался переставить, но не работает

Ну а если вы говорите, что всё ок, значит проблема решена

Спасибо !

AiK
На сайте с 27.10.2000
Offline
257
AiK
#4

Я бы не стал однозначно утверждать, индексируются или нет документы, находящиеся в папке cgi-bin.

Достоверно известно, что наряду с индексирующими cgi-скрипты поисковиками (Яндекс) есть поисковики не индексирующие cgi-скрипты (Рамблер; по крайней мере если и индексирует, то делает это в последнюю очередь; Апорт находится посередине: результаты работы скриптов он не индексирует, но по ссылкам проходит).

Как отличают скрипты от не скриптов поисковики могут рассказать только разработчики.

Я бы делал филтр так: однозначно закрывал бы по расширениям cgi, pl и т.д. (а так же прочую динамику типа asp,jsp,php и т.д.),

игнорировал все URL, содержащие ?.

И, чтобы жизнь мёдом не казалась, полностью фильтровал бы URL содержащие cgi-bin.

Хотя, теоретически, в папку cgi-bin можно положить и статическую страницу а ля *.html,

на практике многие веб-сервера настроены так, что любой документ в этой папке трактуется ими как cgi скрипт...

Подводя итог: если бы я хотел, чтобы мои страницы индексировались всеми серверами, я бы воздержался от размещения статических страниц в папке cgi-bin (хотя мой сервер этого просто не позволяет )

P
На сайте с 22.09.2001
Offline
5
puk
#5

<font face="Verdana" size="2">Originally posted by AiK:
Я бы делал филтр так: однозначно закрывал бы по расширениям cgi, pl и т.д. (а так же прочую динамику типа asp,jsp,php и т.д.),
игнорировал все URL, содержащие ?.
И, чтобы жизнь мёдом не казалась, полностью фильтровал бы URL содержащие cgi-bin.
</font>

...И да здравтвуют хоум-пейджи всех времен и народов

А если по существу, например, я полностью, от первой страницы до последней, строю сайты на Mysql и cgi, а в итоге появляются страницы с расширением *.html. Как с этим бороться будещь? Наоборот, поисковики должны индексировать все страницы, и статичные и динамические. А дело вебмастера - с помощью 'robots' или .htaccess, или иным способом, запрещать или разрешать индексировать те или иные каталоги (страницы).

AiK
На сайте с 27.10.2000
Offline
257
AiK
#6

<font face="Verdana" size="2">
...И да здравтвуют хоум-пейджи всех времен и народов
</font>

Ничего плохого в индексации домашних страниц не вижу. Наоборот - до свидания гуестбуки и "ленивые" форумы типа этого или моего.

Полезный форум должен по результатам дискуссии порождать факуху или хаутуху. Статическую.

До тех пор, пока Яндекс индексирует динамику, ни я ни Gray этого делать не будем. Ну разве что если только с Рамблером более плотно подружиться не захотим или одни и те же вопросы не надоедят

<font face="Verdana" size="2">
А если по существу, например, я полностью, от первой страницы до последней,
строю сайты на Mysql и cgi, а в итоге появляются страницы с расширением
*.html. Как с этим бороться будещь?
</font>

Если ты порождаешь статические страницы, как на этом форуме, то и бороться не надо.

noindex,follow ко всей динамике - максимум что может себе позволить поисковик, который заботится о качестве, а не о количестве.

А ежели ты вебмастер, а не так погулять вышел, то ты озаботишься тем, чтобы у тебя все динамические страницы выглядили статическими - никаких намёков на ?, &, = в url, вот тогда ты заслужил индексации.

И тут первыми "отвалятся" как раз сайты у большинства бесплатных хостеров, которые без зазрения совести можно отнести к разряду домашних страниц.

<font face="Verdana" size="2">
Наоборот, поисковики должны индексировать
все страницы, и статичные и динамические.
</font>

Приведу контр пример. Год назад, когда я делал сайт для цветочно-садового магазина, мне выдали задание полностью выкачать два сайта конкурентов.

При этом оба они были динамические. Один из них выкачался без проблем, а со вторым вышел конфуз. Ссылки у него тоже были динамическими.

И всего-то с десяток разделов, но возвращаешся к предыдущему разделу каждый раз по новой ссылке.

Если есть время - можешь поэкспериментировать на Яндексе. Могу предсказать судьбу такого сайта - сначала (и возможно довольно долго) он будет всплывать всё выше и выше по всевозможным запросам, а потом его забанят. Слабо опровергнуть экспериментально?

<font face="Verdana" size="2">
А дело вебмастера - с помощью
'robots' или .htaccess, или иным способом, запрещать или разрешать
индексировать те или иные каталоги (страницы).
</font>

Угумс. Запрещают только когда есть что прятать от всеобщего обозрения.

В противном случае задача вебмастера добится как можно более полной индексации.

А задача поисковика - избавится от мусора в базе, или как минимум добится того, чтобы этот мусор не всплывал.

Как обычно это было сугубо личное IMHO

P
На сайте с 22.09.2001
Offline
5
puk
#7

<font face="Verdana" size="2">Originally posted by AiK:
А ежели ты вебмастер, а не так погулять вышел, то ты озаботишься тем, чтобы у тебя все динамические страницы выглядили статическими - никаких намёков на ?, &, = в url, вот тогда ты заслужил индексации.
И тут первыми "отвалятся" как раз сайты у большинства бесплатных хостеров, которые без зазрения совести можно отнести к разряду домашних страниц.
</font>

Все зависит от того, каким методом передавать параметры. Можно и без вышеуказанных символов обойтись

Но, иногда, бывает гораздо удобнее использовать именно их. И, согласись, что наваять хоум-пейдж во Фронт_пейдже требует гораздо меньше знаний, чем написать динамический сайт...

<font face="Verdana" size="2">
При этом оба они были динамические. Один из них выкачался без проблем, а со вторым вышел конфуз. Ссылки у него тоже были динамическими.
И всего-то с десяток разделов, но возвращаешся к предыдущему разделу каждый раз по новой ссылке.
</font>

Некоторые системы генерят временные каталоги для каждого отдельного юзера, но в принципе, скачать можно любой сайт

<font face="Verdana" size="2">

Угумс. Запрещают только когда есть что прятать от всеобщего обозрения.
В противном случае задача вебмастера добится как можно более полной индексации.

А задача поисковика - избавится от мусора в базе, или как минимум добится того, чтобы этот мусор не всплывал.
</font>

Запрет с помощью "робот" и т.п. от всеобщего обозрения малоэффективен. Для этого существуют другие способы. Если у тебя нет прямой ссылки на какой-либо каталог, поисковик и так не пройдет. Как правило, запрещают к индексированию именно твой любимый cgi-bin, чтобы лишний хлам не был проиндексирован.

Что касается мусора в базах поисковиков, то я знаю прекрасный способ (и относительно дешевый в реализации) сделать спам поисковиков абсолютно не эффективным, но... это уже, как говориться, бизнес, так что распространяться не буду. Хотя идея продается, но деньги вперед

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#8

Честно говоря, не могу понять сути вашего спора, ребята. Она есть?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий