Помогите составить robots.txt

12
H
На сайте с 22.01.2011
Offline
2
979

Здравствуйте. Есть такой файл robots.txt

"

User-agent: *
Disallow: /cpbazu
Disallow: /search
Disallow: /sxd
Disallow: /noimages
Disallow: */v/*=*
Disallow: /*f/
Sitemap: http://www.site.com/sitemap.xml

Host: site.com

"

У сайта "site.com" есть 5 зеркал. Главное из них было www.site.com, потому как было создано самым первым с разницей между остальными зеркалами года два, и тогда не было строки "Host: site.com ". Потом решили сделать главным зеркалом site.com, потому, что оно короче и Яндекс рано или поздно его все равно поклеит и по идее должен выбрать то, что короче, но ведь может сделать это и черти как, поэтому и добавили эту строчку. Некоторые говорят, что для Яндекса необходимо писать HOST только после такой комбинации - Disallow: / . Подскажите как правильно, как написано выше, или может так

"

User-agent: *
Disallow: /cpbazu
Disallow: /search
Disallow: /sxd
Disallow: /noimages
Disallow: */v/*=*
Disallow: /*f/
Sitemap: http://www.site.com/sitemap.xml
Disallow: /

Host: site.com

" и нет ли где ошибки, потому, что я всегда думал, что "Disallow: /" Запрещает индексацию всего сайта и после него необходимо писать, скорее ненужные зеркала, нежели то, которое главное ? Спасибо.

kimberlit
На сайте с 13.03.2007
Offline
370
#1

User-agent: *

Disallow: /cpbazu

Disallow: /search

Disallow: /sxd

Disallow: /noimages

Disallow: */v/*=*

Disallow: /*f/

Host: site.com

Sitemap: http://www.site.com/sitemap.xml

Disallow: /*f/ - Это что?

H
На сайте с 22.01.2011
Offline
2
#2
kimberlit:
User-agent: *
Disallow: /cpbazu
Disallow: /search
Disallow: /sxd
Disallow: /noimages
Disallow: */v/*=*
Disallow: /*f/
Host: site.com
Sitemap: http://www.site.com/sitemap.xml


Disallow: /*f/ - Это что?

Это фильтр сортировки товаров. Это в принципе Интернет магазин, на котором немеряно страниц, и фильтр вырубили.

kimberlit
На сайте с 13.03.2007
Offline
370
#3
halkhogan:
Это фильтр сортировки товаров.

Что этим закрываете? Можно пример адреса посмотреть?

kbv79
На сайте с 24.03.2007
Offline
167
#4

Яндекс сам говорит:

Важно: в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием.

А Disallow: / - зачем? Вы же сайты клеите?

Указывайте хост главного зеркала. И Сайтмап ниже Хоста поместите.

H
На сайте с 22.01.2011
Offline
2
#5
kimberlit:
Что этим закрываете? Можно пример адреса посмотреть?

Можно

site.com/products/show/rs_v/1/rs_o/1=a/rs_s/-1/c/11217/sc/KT78645/v/apple=sony/f/00277.htm

Когда посетитель сортирует допустим, ноутбуки: по вендорам, диагонали, процессору и т.д., то такие "мусорные" страницы закрываем, хотя может наш программист чета напутал.

kimberlit
На сайте с 13.03.2007
Offline
370
#6
halkhogan:
Можно
site.com/products/show/rs_v/1/rs_o/1=a/rs_s/-1/c/11217/sc/KT78645/v/apple=sony/f/00277.htm
Когда посетитель сортирует допустим, ноутбуки: по вендорам, диагонали, процессору и т.д., то такие "мусорные" страницы закрываем, хотя может наш программист чета напутал.

Сделай лучше так:

Disallow: /*/f/

Иначе попадут страницы типа:

/bla-bla/off/bla

H
На сайте с 22.01.2011
Offline
2
#7
kbv79:
Яндекс сам говорит:


А Disallow: / - зачем? Вы же сайты клеите?
Указывайте хост главного зеркала. И Сайтмап ниже Хоста поместите.

Мы пока ничего не "клеем", а потому и спрашиваем, как правильно указать главный хост, чтобы не навредить? Наш "роботс", пока, как указано в первом примере, без Disallow: /, просто увидели на сайтах у конкурентов (успешных), почитали на некоторых форумах и теперь ищем ответ. Правда, на сайте у конкурентов robots.txt был такой

"

User-Agent: *

Disallow: /cgi-bin

Disallow: /search

Disallow: /*sort=*

User-agent: Yahoo

Disallow: /

Host: site.com

"

K
На сайте с 31.01.2001
Offline
737
#8

halkhogan, если честно, вы пробовали читать http://help.yandex.ru/webmaster/?id=996567 ?

Вы хоть раз видели, чтобы директива Host болталась в файле как гавно в проруби?

К какому поисковику она должна относиться, вы в курсе?

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
kimberlit
На сайте с 13.03.2007
Offline
370
#9
halkhogan:
Мы пока ничего не "клеем", а потому и спрашиваем, как правильно указать главный хост, чтобы не навредить? Наш "роботс", пока, как указано в первом примере, без Disallow: /, просто увидели на сайтах у конкурентов (успешных), почитали на некоторых форумах и теперь ищем ответ.

Сделай вот так:

User-agent: Yandex

Disallow: /cpbazu

Disallow: /search

Disallow: /sxd

Disallow: /noimages

Disallow: /*/v/

Disallow: /*/f/

Host: site.com

Sitemap: http://www.site.com/sitemap.xml

H
На сайте с 22.01.2011
Offline
2
#10
kimberlit:
Сделай лучше так:
Disallow: /*/f/

Иначе попадут страницы типа:
/bla-bla/off/bla

Ты имеешь в виду, что пропадут все страницы содержащие букву f ? То есть так : /*(все) буквы f/, а если так, то только /*(все)/ f идущие после слеша. ?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий