Вопрос по robots.txt

123
A
На сайте с 13.02.2007
Offline
77
#11

El_Gato, Hkey, спасибо за пояснения.

1. Из всего выше сказанного, я делаю вывод, что мне достаточно в роботс.тхт написать:

Allow: /index.php, а все осатльное в public_html можно смело запрещать. Зайдя по www.mysite.ru/index.php робот увидит главную страницу, с которой ссылки через меню сайта ведут на все категории, подкатегории и страницы со статьями и проиндексируют все, что надо. Верно?

2. Allow: /index.php* - я думаю писать бессмысленно, т.к. все равно у меня нет динамических страниц типа mysite.ru/index.php?param1=dsfds&param2=3, а они подменяются статическими вида http://www.mysite.ru/word/n1/n2/n3/, верно?

3. Можно в принципе еще написать Allow: /word/, где word это все динамические папки, где находятся страницы со статьями (т.е. page, cat, articles, info), чтобы робот точно знал где стоит искать статьи для индексации. Улучшит ли это индексацию, или Allow: /index.php вполне достаточно?

Спасибо.

EG
На сайте с 25.02.2008
Offline
110
#12
Aveter:
El_Gato, Hkey, спасибо за пояснения.
1. Из всего выше сказанного, я делаю вывод, что мне достаточно в роботс.тхт написать:

Allow: /index.php, а все осатльное в public_html можно смело запрещать. Зайдя по www.mysite.ru/index.php робот увидит главную страницу, с которой ссылки через меню сайта ведут на все категории, подкатегории и страницы со статьями и проиндексируют все, что надо. Верно?

2. Allow: /index.php* - я думаю писать бессмысленно, т.к. все равно у меня нет динамических страниц типа mysite.ru/index.php?param1=dsfds&param2=3, а они подменяются статическими вида http://www.mysite.ru/word/n1/n2/n3/, верно?

3. Можно в принципе еще написать Allow: /word/, где word это все динамические папки, где находятся страницы со статьями (т.е. page, cat, articles, info), чтобы робот точно знал где стоит искать статьи для индексации. Улучшит ли это индексацию, или Allow: /index.php вполне достаточно?

Спасибо.

Все верно, только пунк 3 не опционально, а обязательно...

Ведь если робот найдет сслыку вида http://www.mysite.ru/word/n1/n2/n3/, но будет запрещен доступ в папку /word/ со всеми ее подпапками, тогда робот и не пойдет дальше главной.

А вообще лучше не мудрить с Allow, а просто ручками прописать Disallow для всех файлов и папок кроме index.php, /word/ и /, т.е. не напишите чего доброго что то вроде:

Disallow: /*

или

Disallow: *

Hkey
На сайте с 30.09.2006
Offline
222
#13
Aveter:

2. Allow: /index.php* - я думаю писать бессмысленно, т.к. все равно у меня нет динамических страниц типа mysite.ru/index.php?param1=dsfds&param2=3, а они подменяются статическими вида http://www.mysite.ru/word/n1/n2/n3/, верно?

Звездочка сама автоматом приписываеться в конец аллоу и диссалоу диретив.

2. Аллоу и прочих расширений не должно присутвовать в общей части роботс.тхт

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
A
На сайте с 13.02.2007
Offline
77
#14

El_Gato, ну то есть я понял так - пишу роботс.тхт следующим образом:

User-Agent: Yandex
Disallow: /folder1/
Disallow: /folder2/
.......................
Disallow: /folderN/
Disallow: /file1.php
Disallow: /file2.php
........................
Disallow: /fileN.php
Allow: /index.php
Allow: /word1/*
Allow: /word1/*
....................
Allow: /wordN/*

User-Agent: *
и далее все те же строки, что и после User-Agent: Yandex

где folder1...fiolderN - все папки в public_html, file1...fileN - все php файлы (кроме index.php) в public_html, а word1...wordN - все динамические папки создаваемые по кликам на ссылки с главной страницы сайта. Правильно?

EG
На сайте с 25.02.2008
Offline
110
#15

Абсолютно верно...

У меня примерно такая схема работает

Но послле всего этого кропотливого труда не поленитесь проверить в http://webmaster.yandex.ru/, ну или аналогичных сервисах, дабы избежать неприятных сюрпризов.

Hkey
На сайте с 30.09.2006
Offline
222
#16
Aveter:
El_GatoUser-Agent: Yandex
Disallow: /folder1/
Disallow: /folder2/
.......................
Disallow: /folderN/
Disallow: /file1.php
Disallow: /file2.php
........................
Disallow: /fileN.php
Allow: /index.php
Allow: /word1/*
Allow: /word1/*
....................
Allow: /wordN/*

User-Agent: *
и далее все те же строки, что и после User-Agent: Yandex

Стремный файл будет. "Allow:" директива из расширенного синтаксиса. в "User-Agent: *" ее крайне не рекомендую указывать поскольку она далеко не всеми роботами воспринимается.

A
На сайте с 13.02.2007
Offline
77
#17
El_Gato:
Абсолютно верно...

У меня примерно такая схема работает

Но послле всего этого кропотливого труда не поленитесь проверить в http://webmaster.yandex.ru/, ну или аналогичных сервисах, дабы избежать неприятных сюрпризов.

Ну вроде все понял, так и сделаю.

Спасибо огромное за помощь. :)

Удачи.

Aveter добавил 26.05.2008 в 20:03

Hkey:
в "User-Agent: *" ее крайне не рекомендую указывать поскольку она далеко не всеми роботами воспринимается.

Ну то что не всеми воспринимается - это бог с ним, не сработает так не сработает, лишь она не помешала.

[Удален]
#18

А стоит ли в принципе заморачиваться с функцией Allow?

A
На сайте с 13.02.2007
Offline
77
#19
Psycho:
А стоит ли в принципе заморачиваться с функцией Allow?

Ну не знаю, мне кажется если она не мешает, то может направить робота к указанной папке (то есть облегчить/ускорить индексацию).

И еще тут вопросец возник в процессе написания:

есть несколько служебных файлов и папок - от сапы (типа ac05eva07egddecfaa7466c36fb1s67a), от goоgle analytics (типа google140ca4746d9ag003.html) и yahndex-webmasters (типа yandex_7bdfegs787bdg4a298.txt). Вот с ними я не знаю как быть - нужно ли оставлять их открытыми для индексации? Они тем же роботом проверяются, что и индексируется сайт, или же это совершенно независимые роботы? Подскажите плиз.

Aveter добавил 26.05.2008 в 21:29

Фух, написал (замучился :))- 155 строк получился, 4 Кб - не слишком много?

Чтоб не получилось как здесь Яша предупреждает:

При написании robots.txt необходимо помнить, что в роботе есть разумное ограничение на его размер. Слишком большие robots.txt считаются полностью запрещающими, то есть рассматриваются аналогично:
User-agent: Yandex
Disallow: /

Вообще, разумно было конечно написать для всех php файлов одну строчку типа:

запрещаю все php кроме index.php - это можно как-то сделать или только по одному надо перечислять?

EG
На сайте с 25.02.2008
Offline
110
#20
Aveter:
И еще тут вопросец возник в процессе написания:
есть несколько служебных файлов и папок - от сапы (типа ac05eva07egddecfaa7466c36fb1s67a), от goоgle analytics (типа google140ca4746d9ag003.html) и yahndex-webmasters (типа yandex_7bdfegs787bdg4a298.txt). Вот с ними я не знаю как быть - нужно ли оставлять их открытыми для индексации? Они тем же роботом проверяются, что и индексируется сайт, или же это совершенно независимые роботы? Подскажите плиз.

Яндекс точно, и скорее всего и иже с ним к своим служебным файлам обращаются напрямую, заранее зная их адрес, саповская папка у меня закрыта от индексации и работает.

Aveter:
Фух, написал (замучился )- 155 строк получился, 4 Кб - не слишком много?
Чтоб не получилось как здесь Яша предупреждает:

Честное слово вы - герой... У меня строк 30 отсилы, благо все остальное по папкам распихано...

Aveter:
Вообще, разумно было конечно написать для всех php файлов одну строчку типа:
запрещаю все php кроме index.php - это можно как-то сделать или только по одному надо перечислять?

Mожно, например так:


Allow: /index.php
Disallow: /dir1/
...................
Disallow: /dirN/
Disallow: /*.php

ОЧЕНЬ ВАЖНО!!!!!!!!!!!!

Только один момент... Чуть не забыл, а это очень важно, секция Allow должна идти перед секцией Disallow... Гуглу на это начхать, а вот для яндекса это критично...

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий