Как лучше написать robot.txt dle

S1
На сайте с 27.10.2011
Offline
28
808

Скажите, пожалуйста, как лучше всего написать robot.txt для dle, чтобы новости и фотографии хорошо индексировались, и не возникали никакие дубликаты страниц?

1
На сайте с 28.05.2011
Offline
90
#1

Вот как рекомендует один автор (линк), но я с ним не согласен, я делаю все через роботс (только по той причине что он не все дубли учел).

Но в целом, вашу проблему решиться по его методике получится.

victim
На сайте с 12.02.2006
Offline
189
#2
10sec:
но я с ним не согласен, я делаю все через роботс (только по той причине что он не все дубли учел)

C чем несогласны? Что я не учел?

Давайте обсудим этот момент...

CheckTrust.Ru (https://checktrust.ru/) - новый сервис для проверки ТРАСТа и заСПАМленности сайтов.
1
На сайте с 28.05.2011
Offline
90
#3

Тогда я покажу свой роботс, чтоб было понятно о чем я говорю, но хочу предупредить что я не претендую на истину в первой и даже второй инстанции.

Все работы проводились опираясь в большинстве своем на многочисленные ветки форумов и на блог victim (Алаича)

Итак вот мой роботс

User-agent: Yandex
Disallow: /*print*
Disallow: /*userinfo*
Disallow: /2010/ - года, хотя я их закрыл как в последнем мануале, но тут продублиговал. С некоторыми остальными страницами также. Они и тут и там..
Disallow: /index.php?*
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /backup/
Disallow: /engine/
Disallow: /favorites/
Disallow: /language/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /page/
Disallow: /tags/
Disallow: /templates/
Disallow: /user/
Disallow: /?author=*
Disallow: /?cat=*
Disallow: /?do=*
Disallow: /?p=*
Disallow: /?paged=*
Sitemap:
Host:

Для гугла и других такой же только без хоста

Что было не учтено, в приведенной выше ссылке.

Вот например сайт/?p=*номер новости

Дает ответ 200, в аддурилку добавляется.

P.S. конечно робот индексатор стал умнее и не добавляет такую фигню, но мало ли :)

victim
На сайте с 12.02.2006
Offline
189
#4

10sec, Щас все по пунктам раскидаю для тебя :)

10sec:
Disallow: /*print*

Нет смысла, это закрывается настройкой в админке "Не индексировать страницы печати".

10sec:
Disallow: /*userinfo*

Что это? Пример урла можно и что он отображает?

10sec:
Disallow: /2010/
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /favorites/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /page/
Disallow: /tags/
Disallow: /user/

Закрывается метатегами, как я описывал в своем посте, вы его читали.

10sec:
Disallow: /backup/
Disallow: /language/

Можно не закрывать, достаточно запретить листинг директорий на сервер. Файлы отсюда не будут индексироваться в любом случае. Только вызываете интерес этими запретами для злоумышленников.

10sec:
Disallow: /?author=*
Disallow: /?cat=*
Disallow: /?do=*
Disallow: /?p=*
Disallow: /?paged=*

Что это? неЧПУ урлы? Даже если и они смогут как-то существовать, то при правках, которые я описывал в посте, они будут содержать meta noindex.

Убедил? :)

WebAlt
На сайте с 02.12.2007
Offline
266
#5
victim:

Нет смысла, это закрывается настройкой в админке "Не индексировать страницы печати".

Не, с помощью движка на ссылку print ставится rel="nofollow", не комильфо ;).

Для приведения к единому порядку мета-тег нужно просто отдельно прописать в print.tpl, а не закрывать двигом.

РS: Млин, я раньше с помощью aviable меты noindex и nofollow прописывал, не очень удобно было, увидел на вашем блоге эту статью не так давно, спасибо, victim/АлаичЪ.

DiAksID
На сайте с 02.08.2008
Offline
236
#6

закрытая мета-тегом страница всё равно и постоянно будет тратить ограниченные время и ресурсы бота, выделенные на индексацию сайта (боты будут периодически проверять хотя бы изменения мета-тегов). т.е. действительно важные страницы индексироваться/переиндексироваться будут хоть чуть, но медленнее.

для закрытых в robots страниц/разделов эта проблема отсекается в корне - индексирующие боты туда просто не ходят ни для чего.

show must go on !!!...
victim
На сайте с 12.02.2006
Offline
189
#7
WebAlt:
Не, с помощью движка на ссылку print ставится rel="nofollow", не комильфо .
Для приведения к единому порядку мета-тег нужно просто отдельно прописать в print.tpl, а не закрывать двигом.

Точно, я что-то запамятовал. Сам же у себя в посте писал:

Найдите файл шаблона версии для печати print.tpl и откройте его. Сразу после <head> вставьте <meta name="robots" content="noindex">

Так что так и стоит поступить!

WebAlt:
РS: Млин, я раньше с помощью aviable меты noindex и nofollow прописывал, не очень удобно было, увидел на вашем блоге эту статью не так давно, спасибо, victim/АлаичЪ.

Всегда пожалуйста :)

DiAksID:
закрытая мета-тегом страница всё равно и постоянно будет тратить ограниченные время и ресурсы бота, выделенные на индексацию сайта (боты будут периодически проверять хотя бы изменения мета-тегов). т.е. действительно важные страницы индексироваться/переиндексироваться будут хоть чуть, но медленнее.

для закрытых в robots страниц/разделов эта проблема отсекается в корне - индексирующие боты туда просто не ходят ни для чего.

Да, мнение имеет право на жизнь. НО!

Во-первых, я советовал не оставлять внутренних ссылок на страницы, которые закрыты от индексации. По понятным причинам, я думаю.

Во-вторых. Разве ваш сайт посещает не более 100 человек в сутки? Ну, это для того, чтобы число посетителей и поисковых ботов было сравнимо по количеству. Неужели сервер не выдержит лишних 100 обращений в сутки?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий