Как лучше написать robot.txt dle

28

saeed1985

24 ноября 2012, 15:23

812

Скажите, пожалуйста, как лучше всего написать robot.txt для dle, чтобы новости и фотографии хорошо индексировались, и не возникали никакие дубликаты страниц?

1

90

10sec

24 ноября 2012, 15:51

#1

Вот как рекомендует один автор (линк), но я с ним не согласен, я делаю все через роботс (только по той причине что он не все дубли учел).

Но в целом, вашу проблему решиться по его методике получится.

Методика определения отключения ссылочного Google: пробелы в файле Bing: почти 60% изображений

189

victim

26 ноября 2012, 03:36

#2

10sec:
но я с ним не согласен, я делаю все через роботс (только по той причине что он не все дубли учел)

C чем несогласны? Что я не учел?

Давайте обсудим этот момент...

CheckTrust.Ru (https://checktrust.ru/) - новый сервис для проверки ТРАСТа и заСПАМленности сайтов.

1

90

10sec

26 ноября 2012, 07:26

#3

Тогда я покажу свой роботс, чтоб было понятно о чем я говорю, но хочу предупредить что я не претендую на истину в первой и даже второй инстанции.

Все работы проводились опираясь в большинстве своем на многочисленные ветки форумов и на блог victim (Алаича)

Итак вот мой роботс

User-agent: Yandex
Disallow: /*print*
Disallow: /*userinfo*
Disallow: /2010/ - года, хотя я их закрыл как в последнем мануале, но тут продублиговал. С некоторыми остальными страницами также. Они и тут и там..
Disallow: /index.php?*
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /backup/
Disallow: /engine/
Disallow: /favorites/
Disallow: /language/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /page/
Disallow: /tags/
Disallow: /templates/
Disallow: /user/
Disallow: /?author=*
Disallow: /?cat=*
Disallow: /?do=*
Disallow: /?p=*
Disallow: /?paged=*
Sitemap:
Host:

Для гугла и других такой же только без хоста

Что было не учтено, в приведенной выше ссылке.

Вот например сайт/?p=*номер новости

Дает ответ 200, в аддурилку добавляется.

P.S. конечно робот индексатор стал умнее и не добавляет такую фигню, но мало ли :)

Важность домена Анкоры в ссылках домены под баном яндекса

189

victim

27 ноября 2012, 04:13

#4

10sec, Щас все по пунктам раскидаю для тебя :)

10sec:
Disallow: /*print*

Нет смысла, это закрывается настройкой в админке "Не индексировать страницы печати".

10sec:
Disallow: /*userinfo*

Что это? Пример урла можно и что он отображает?

10sec:
Disallow: /2010/
Disallow: /rules.html
Disallow: /statistics.html
Disallow: /favorites/
Disallow: /lastnews/
Disallow: /newposts/
Disallow: /page/
Disallow: /tags/
Disallow: /user/

Закрывается метатегами, как я описывал в своем посте, вы его читали.

10sec:
Disallow: /backup/
Disallow: /language/

Можно не закрывать, достаточно запретить листинг директорий на сервер. Файлы отсюда не будут индексироваться в любом случае. Только вызываете интерес этими запретами для злоумышленников.

10sec:
Disallow: /?author=*
Disallow: /?cat=*
Disallow: /?do=*
Disallow: /?p=*
Disallow: /?paged=*

Что это? неЧПУ урлы? Даже если и они смогут как-то существовать, то при правках, которые я описывал в посте, они будут содержать meta noindex.

Убедил? :)

Скрывать ли неуникальный текст robots.txt для сайта в Пагинация в ИМ закрытая/открытая

267

WebAlt

27 ноября 2012, 05:53

#5

victim:

Нет смысла, это закрывается настройкой в админке "Не индексировать страницы печати".

Не, с помощью движка на ссылку print ставится rel="nofollow", не комильфо ;).

Для приведения к единому порядку мета-тег нужно просто отдельно прописать в print.tpl, а не закрывать двигом.

РS: Млин, я раньше с помощью aviable меты noindex и nofollow прописывал, не очень удобно было, увидел на вашем блоге эту статью не так давно, спасибо, victim/АлаичЪ.

Яндекс опубликовал методы управления Для запрета индексирования ссылок «Для полного счастья» Яндекс

236

DiAksID

27 ноября 2012, 06:05

#6

закрытая мета-тегом страница всё равно и постоянно будет тратить ограниченные время и ресурсы бота, выделенные на индексацию сайта (боты будут периодически проверять хотя бы изменения мета-тегов). т.е. действительно важные страницы индексироваться/переиндексироваться будут хоть чуть, но медленнее.

для закрытых в robots страниц/разделов эта проблема отсекается в корне - индексирующие боты туда просто не ходят ни для чего.

show must go on !!!...

Яндекс признал некорректную работу Как повлиять на скорость Bing рекомендует закрывать от

189

victim

27 ноября 2012, 08:06

#7

WebAlt:
Не, с помощью движка на ссылку print ставится rel="nofollow", не комильфо .
Для приведения к единому порядку мета-тег нужно просто отдельно прописать в print.tpl, а не закрывать двигом.

Точно, я что-то запамятовал. Сам же у себя в посте писал:

Найдите файл шаблона версии для печати print.tpl и откройте его. Сразу после <head> вставьте <meta name="robots" content="noindex">

Так что так и стоит поступить!

WebAlt:
РS: Млин, я раньше с помощью aviable меты noindex и nofollow прописывал, не очень удобно было, увидел на вашем блоге эту статью не так давно, спасибо, victim/АлаичЪ.

Всегда пожалуйста :)

DiAksID:
закрытая мета-тегом страница всё равно и постоянно будет тратить ограниченные время и ресурсы бота, выделенные на индексацию сайта (боты будут периодически проверять хотя бы изменения мета-тегов). т.е. действительно важные страницы индексироваться/переиндексироваться будут хоть чуть, но медленнее.

для закрытых в robots страниц/разделов эта проблема отсекается в корне - индексирующие боты туда просто не ходят ни для чего.

Да, мнение имеет право на жизнь. НО!

Во-первых, я советовал не оставлять внутренних ссылок на страницы, которые закрыты от индексации. По понятным причинам, я думаю.

Во-вторых. Разве ваш сайт посещает не более 100 человек в сутки? Ну, это для того, чтобы число посетителей и поисковых ботов было сравнимо по количеству. Неужели сервер не выдержит лишних 100 обращений в сутки?

Google не рекомендует добавлять Платон Щукин: Почему робот 9 советов по оптимизации

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Google: E-E-A-T не является фактором ранжирования