Вопрос по robots.txt

77

Aveter

25 мая 2008, 19:43

1301

Приветствую всех.

Вопрос по robots.txt: известно, что закрывают от индексации все папки и файлы сайта, которые не имеют полезной (как правило текстовой) информации.

Вопрос: у меня вся инфа, насколько я знаю, содержится в базах, а в public_html - только php-код сайта. Означает ли это, что можно запрещать к индексации всё в папке public_html или все-таки какие-то файлы, хотя и не содержат непосредственно информации, могут быть неразрывно связаны с базами и их запрещение может привести к запрету индексации и самой базы?

Могу конечно спросить программиста, но мне надо понять, как корректно сформулировать для него вопрос?

Спасибо

369

basilic

25 мая 2008, 19:47

#1

Aveter:
Приветствую всех.

Вопрос по robots.txt: известно, что закрывают от индексации все папки и файлы сайта, которые не имеют полезной (как правило текстовой) информации.
Вопрос: у меня вся инфа, насколько я знаю, содержится в базах, а в public_html - только php-код сайта. Означает ли это, что можно запрещать к индексации всё в папке public_html или все-таки какие-то файлы, хотя и не содержат непосредственно информации, могут быть неразрывно связаны с базами и их запрещение может привести к запрету индексации и самой базы?

Могу конечно спросить программиста, но мне надо понять, как корректно сформулировать для него вопрос?

Спасибо

Не защищайте лишь только те скрипты, которые выдёргивают данные из базы. Подлежат запрету к индексации, например, админка - нечего роботам знать вашу CMS-ку :)

161

Skie

25 мая 2008, 20:08

#2

Aveter:
у меня вся инфа, насколько я знаю, содержится в базах, а в public_html - только php-код сайта.

Это внутреннее представление, робот о нем ничего не знает и проиндексировать Вашу базу не может.

Папка public_html ему тоже неизвестна.

Робот видит то, до чего может добраться сторонний пользователь. Из этого и исходите.

EG

110

El_Gato

25 мая 2008, 20:11

#3

Aveter, у вас все линки на страницы идут типа

site.ru/index.php?param1=dsfds&param2=3

т.е. по сути идет обращение только к одной странице, на которой контент уже генерится автоматически, в зависимости от переданных параметров... А как и откуда контент появляется на вашей странице ПС откровенно говоря не должно... Так что разрешена должна быть эта страница, а остальное уже хозяин - барин...

A

77

Aveter

25 мая 2008, 21:36

#4

basilic, Skie - спасибо.

El_Gato:
Aveter, у вас все линки на страницы идут типа
site.ru/index.php&param1=dsfds&param2=3
т.е. по сути идет обращение только к одной странице, на которой контент уже генерится автоматически, в зависимости от переданных параметров...

Вы хотите сказать, что если я оставлю видимым роботу только файл index.php и все производные от него (т.е. index.php + что-то), то есть напишу директиву типа Allow: /index.php*, то этого достаточно, чтоб индексировалась вся полезная информация на сайте, а все остальное можно запретить, я вас правильно понял?

Я не знаю, поможет ли вам это "поставить диагноз", но на всякий случай скажу, что у меня все информационные страницы строятся по такой схеме :

http://www.mysite.ru/word/n1/n2/n3/ где word это слово типа page, cat, articles, info и т.д., а n1, n2, n3 и т.д. это числа (номера страниц, категорий или подкатегорий). Система информации на сайте 3-х уровневая: основные страницы, категории, подкатегории, на любой из которых могут размещаться статьи (то есть через меню сайта делается выборка ведущая к статьям или другой текстовой информации на любом из этих уровней)

EG

110

El_Gato

25 мая 2008, 22:08

#5

Aveter, если бы линки были динамические, т.е. вида site.ru/index.php?param1=dsfds&param2=3, тогда Allow: /index.php* вполне хватило бы...

Aveter:
http://www.mysite.ru/word/n1/n2/n3/

т.е. у вас прописанно подменятьь ддинамические урлы статическими... Для такой схемы достаточно прописать что-то вида: Allow: /word/

Только и в том и другом случае, если нужна индексация картинок и т.п. нужно посмотреть по какому адресу их CMS прописала и тот каталог тоже разрешить...

A

77

Aveter

25 мая 2008, 23:56

#6

El_Gato:
если бы линки были динамические, т.е. вида site.ru/index.php?param1=dsfds&param2=3, тогда Allow: /index.php* вполне хватило бы...

Понятно, спасибо. Только есть один нюанс - все эти папки типа word (т.е. page, cat, articles, info) физически не существуют в public_html. Видимо они создаются (где - не знаю, но врядли в public_html) временно во время выборки (т.е. клика на какой-либо пункт из основного меню сайта) и затем уничтожаются. В связи с этим вопрос - нет ли тут каких-то нюансов и будет ли команда типа Allow: /word/ работать?

El_Gato:
если нужна индексация картинок и т.п.

Простите, а разве картинки индексируются? Насколько я помню из книги ашманова, из графики индексируется только флеш и о, потому что он содержит текст. Проясните плиз.

Спасибо.

222

Hkey

26 мая 2008, 01:13

#7

Намедни сделал FAQ по robots.txt

В связи с этим вопрос - нет ли тут каких-то нюансов и будет ли команда типа Allow: /word/ работать?

Будет для робота статические или динамические страницы пофиг. Но учите, что алоу это расширение синтаксисиса и часть роботов не будет ее понимать. Яша ее понимает.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

A

77

Aveter

26 мая 2008, 01:47

#8

Hkey, спасибо за ссылку.

Hkey:
Но учите, что алоу это расширение синтаксисиса и часть роботов не будет ее понимать. Яша ее понимает.

А как насчет Гугла и Яху - они понимают allow? Если нет, как им сказать "разрешаю индексировать папку folder1 и все что ниже по уровню (вложено)"?

222

Hkey

26 мая 2008, 02:42

#9

Aveter:
Hkey, спасибо за ссылку.
А как насчет Гугла и Яху - они понимают allow? Если нет, как им сказать "разрешаю индексировать папку folder1 и все что ниже по уровню (вложено)"?

Яху нах отрубите - трафа много жрет и нифига не приносит, а гугл должен понимать. Залогитесь в службу гугла для веб. мастеров. Там тестер есть роботов.

EG

110

El_Gato

26 мая 2008, 08:05

#10

Aveter:
Понятно, спасибо. Только есть один нюанс - все эти папки типа word (т.е. page, cat, articles, info) физически не существуют в public_html. Видимо они создаются (где - не знаю, но врядли в public_html) временно во время выборки (т.е. клика на какой-либо пункт из основного меню сайта) и затем уничтожаются. В связи с этим вопрос - нет ли тут каких-то нюансов и будет ли команда типа Allow: /word/ работать?

Понятное дело, что не существуют... Это просто в файлике .htaccess прописанны павила, по которым урлы вида, с которыми реально работает CMS:

Aveter:
site.ru/index.php?param1=dsfds&param2=3

подменяются урлами вида:

El_Gato:
http://www.mysite.ru/word/n1/n2/n3/

но все это происходит прозрачно для пользователей и поисковиков. Поисковики, как и пользователи не лазят по папкам на вашем сервере, а просто дают запрос серверу, мол дай мне документ с таким урлом, сервер решает в зависимости от урла, что ответить и отдыет резальтат клиенту (человеку или ПС). Только ПС, когда находят какой-либо урл на ваш сайт, сначала по маске сравнивают его с правилами в robots.txt и если правилами индексация его не запрецена, то посылают запрос серверу, дай мол мне этот документ.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Курс биткоина превысил $50 тысяч