По robots.txt

12
TyT
На сайте с 03.09.2007
Offline
47
TyT
1001

Добрый день есть ряд моментов которые хотелось бы уточнить, я почитал факи и разные сайты, смотрел разные конструкции роботса для google.com но так и не пришел к полному пониманию в некоторых вещах, которые и хочу уточнить.

Вот скажем есть набор правил

Disallow: /cgi-bin/

Disallow: /*?

Disallow: /clickthru*

Disallow: */webadvanced*

Disallow: /baidu/

Disallow: */privacy*

Disallow: */terms*

Disallow: */startpage*

Disallow: */bar*

Disallow: */home/

Disallow: /search*

Disallow: */search/

Disallow: */startpage/

Disallow: */explore/

Disallow: */images/

Disallow: */tool/

Disallow: */default/

Вопросы следующие, можно ли использовать 2 звездочки в одном правиле ? т.е. по маске до встречающихся символов и после введенных так же по маске до конца адреса ?

Вот к примеру если мне надо закрыть урл http://www.domain.com/clickthru?h=91691c3a2d39b21095f744c4eafda346

в каком случае сработает исключение ?

Disallow: /clickthru*

Disallow: /clickthru/

Далее есть такой урл www.domain.com/ita/webadvanced®ion надо закрыть все что будет начинаться на webadvanced

как правильно создать исключения

Disallow: */webadvanced*

Disallow: *webadvanced*

Disallow: /webadvanced/

И по правилам в начале, может есть какие то замечания или поправки ?

Юридические услуги в Днепропетровске (http://www.zakon.dp.ua)
kimberlit
На сайте с 13.03.2007
Offline
370
#1

Звёздочка в конце не нужна.

TyT
На сайте с 03.09.2007
Offline
47
TyT
#2
kimberlit:
Звёздочка в конце не нужна.

В каком месте ? или вообще ? как только натыкается на заданную фразу, часть фразы так дальше все будет в запрете ?

M
На сайте с 27.10.2006
Offline
111
#3
TyT:
Disallow: /clickthru*
Disallow: /clickthru/
  • /clickthru/ закрывает папку clickthru
  • /clickthru закрывает все, что начинается на clickthru

Исходя из этого астериски не нужны.

На самом деле нужно пользоваться не robots.txt, а средствами сервера, например, .htaccess. Отдаете 404 по вашим правилам и нет проблем.

Более того, не все боты следуют указаниям robots.txt, хотя и читают его. А таким файлом вы рассказываете им какие у вас еще есть папки, кроме доступных по ссылкам. Неизвестно назначение тех ботов и как будет использоваться такая информация в будущем.

Бесплатное хранилище данных (http://bit.ly/gJYy9Z) (5GB) с синхронизацией. По ссылке — бонус 500MB.
TyT
На сайте с 03.09.2007
Offline
47
TyT
#4
Maxoud:
  • /clickthru/ закрывает папку clickthru
  • /clickthru закрывает все, что начинается на clickthru

Исходя из этого астериски не нужны.

А разве в папке /clickthru/ есть что то, в пути url что будет начинаться не с /clickthru, по сути оба правила подходят ?

Очень толково, спасибо.

Можно пример кода для .htaccess что бы отдать 404ю на все адреса начинающиеся с domain.com/clickthru

M
На сайте с 27.10.2006
Offline
111
#5

Сорри, там у меня ошибочка... Должно быть не 404 Not Found, а 403 Forbidden.

Код для начинающегося с domain.com/clickthru (не проверил, но вроде так):

RewriteRule ^clickthru - [F,L,NC]

UPD:

Я только что задумался: вы не рассказали для чего это все нужно. Так что такое решение может не годиться. Ибо Forbidden будет для всех, не только поисковиков. Если под clickthru у вас редирект куда-то, то вообще ничего не нужно делать.

TyT
На сайте с 03.09.2007
Offline
47
TyT
#6
Maxoud:
Сорри, там у меня ошибочка... Должно быть не 404 Not Found, а 403 Forbidden.

Код для начинающегося с domain.com/clickthru (не проверил, но вроде так):
RewriteRule ^clickthru - [F,L,NC]


UPD:
Я только что задумался: вы не рассказали для чего это все нужно. Так что такое решение может не годиться. Ибо Forbidden будет для всех, не только поисковиков. Если под clickthru у вас редирект куда-то, то вообще ничего не нужно делать.

Да, редирект, но данный урл есть в выдаче google :) а это мусор

Для чего все это нужно - закрываю лишний мусор, результаты поиска, дубли и прочее от индексации. Лучше все же я наверное воспользуюсь старым добрым robots.txt :)

M
На сайте с 27.10.2006
Offline
111
#7

Так как я тут почти напортачил, придется углубиться и посмотреть пациента поглубже. Я в скором времени напишу что оставить в роботс, а что пихнуть в htaccess.

UPD

Блин, а где пациент?

TyT
На сайте с 03.09.2007
Offline
47
TyT
#8

Да светить не охота на форуме, и ЛС не найду что то :))) напиши контакты, свяжусь покажу пациента(ов)

M
На сайте с 27.10.2006
Offline
111
#9

Я посмотрел сайт и вот что есть сказать.

В-нулевых, когда на одной и той же странице меняется текст после F5 или при следующей загрузке — это плохо.

Во-первых, нужно определиться будут ли адреса папок всегда закрыты слэшами, или нет:

  • domain.com/home или
  • domain.com/home/

Все же это разные адреса.

Во-вторых, эти папки уже можно исключить из списка (там все ОК):

  • /cgi-bin - 403 Forbidden
  • /baidu - 404 Not found
  • /default -404 Not found
  • /images - 404 Not found

В третьих, закрыть в robots.txt (правда, особого смысла в этом нет):

  • Disallow: /privacy/
  • Disallow: /terms/
  • Disallow: /webadvanced/

В-четвертых, нужен или 301 редирект на морду (/home), или 403, ибо там тот же контент, а отдается 200 ОК:

  • /explore
  • /startpage
  • /bar
  • /tool
  • /search

В пятых, я не нашел

  • /clickthru

Думаю, что с clickthru можно разобраться через WMT (раздел «параметры URL» или что-то в этом роде)

Я тут не учел языки (/en), ибо и так трудно разобраться в иерархии.

Надеюсь, что помог, а не запутал.

TyT
На сайте с 03.09.2007
Offline
47
TyT
#10
Maxoud:
Я посмотрел сайт и вот что есть сказать.

В-нулевых, когда на одной и той же странице меняется текст после F5 или при следующей загрузке — это плохо.

Во-первых, нужно определиться будут ли адреса папок всегда закрыты слэшами, или нет:
  • domain.com/home или
  • domain.com/home/

Все же это разные адреса.

Во-вторых, эти папки уже можно исключить из списка (там все ОК):
  • /cgi-bin - 403 Forbidden
  • /baidu - 404 Not found
  • /default -404 Not found
  • /images - 404 Not found


В третьих, закрыть в robots.txt (правда, особого смысла в этом нет):
  • Disallow: /privacy/
  • Disallow: /terms/
  • Disallow: /webadvanced/


В-четвертых, нужен или 301 редирект на морду (/home), или 403, ибо там тот же контент, а отдается 200 ОК:
  • /explore
  • /startpage
  • /bar
  • /tool
  • /search


В пятых, я не нашел
  • /clickthru

Думаю, что с clickthru можно разобраться через WMT (раздел «параметры URL» или что-то в этом роде)

Я тут не учел языки (/en), ибо и так трудно разобраться в иерархии.

Надеюсь, что помог, а не запутал.
  • /clickthru

такого вида урл я нашел в выдаче ПС ... да кстати, чем парсили сайт ? я Page Promoyterom 7, A1 Website Analayzer'om, (ну и выдачу в ПС, проиндексированных страниц визуально сколько терпения хватает) но что первая прога, что вторая довольно глючны и выделываются бывает на ровном месте.

По поводу советов выше .. а чего такая расстановка ?) одни разделы на морду 301м, вторые в 403, 404, и еще что то в роботс. Чем руководствовались ? Удобно для пользователя, этим наверное ?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий