robots.txt для WP

42

martiniskon

10 июня 2010, 14:24

1558

Искал по форуму, но что-то темка толком не раскрыта. Посетил кучу блогов, в т.ч. и известных блоггеров. Они по-прежнему спорят между собой, насчет правильного robots. Поэтому не ясно с кем соглашаться. Причем, например, блоггер пишет в статье, мол такой robots является верным, а на самом деле у него на блоге залит абсолютно уменьшенный или дополненный вариант.

В итоге составил robots, опираясь на robots блоггеров. Хотелось бы узнать. Как вам такой robots.txt? Что не верно? Что стоит убрать или добавить?

User-Agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: */trackback

Disallow: */feed

Disallow: /*?*

Disallow: /*?

Disallow: /wp-login.php

Disallow: /xmlrpc.php

Sitemap: http://site.ru/sitemap.xml

User-Agent: Yandex

Crawl-delay: 2

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /feed

Disallow: */trackback

Disallow: */feed

Disallow: /*?*

Disallow: /*?

Disallow: /wp-login.php

Disallow: /xmlrpc.php

Allow: /wp-content/uploads

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

User-agent: MSNBot

Crawl-delay: 120

Disallow: /

User-agent: Slurp

Crawl-delay: 120

Disallow: /

№1. Инвайты на все партнерки форума Searchengines. (http://u.to/ioQFAQ) <<<>>> №2. Информация, инвайты, акции/конкурсы по всем актуальным партнеркам. (http://u.to/bIQFAQ)

25

Bloodrinker

10 июня 2010, 17:58

#1

а ссылку на сайт можно? ато так ничего не понятно

188

Light Phantom

10 июня 2010, 18:30

#2

martiniskon:
Allow: /wp-content/uploads

Вот это точно лишнее - Вы же нигде не запрещаете все url'ы, начинающиеся с wp-content.

martiniskon:
Disallow: /feed

Запрещает все ссылки вида http://site.ru/feed* (* означает любую последовательность символов)

martiniskon:
Disallow: */feed

Запрещает все ссылки, содержащие /feed, т. е. http://site.ru/*/feed, т. е. вторая запись - это аналог первой, только расширенный, нет смысла оставлять обе записи

По своей практике скажу, что вполне достаточно:

Disallow: /feed (но нужно смотреть на структуру, мне хватало этого, но может понадобиться Disallow: */feed)

Disallow: /wp-login.php

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

80

Gaborik

10 июня 2010, 19:59

#3

У меня на блоге вот такой robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://site.ru/sitemap.xml

User-agent: Yandex
Crawl-delay: 5

Disallow: /tag

Живу одним днём...

142

fan

10 июня 2010, 20:28

#4

martiniskon:

User-agent: MSNBot
Crawl-delay: 120
Disallow: /

User-agent: Slurp
Crawl-delay: 120
Disallow: /

Смысл crawl-delay, если все документы запрещены к индексации этим ботом?

39

Юлия Мар

10 июня 2010, 20:42

#5

Мы вот такое создали, но меня терзает подозрение, что user-agent с именем должен содержать то же, что и user-agent * Или с именами вообще убрать?

User-agent: Adsbot-Google

Disallow:

User-agent: Googlebot

Disallow:

User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /cgi-bin/

Disallow: /affiliate/

Disallow: /images/

Disallow: /blog/wp-admin/

Disallow: /blog/wp-includes/

Disallow: /blog/wp-content/plugins/

Disallow: /blog/wp-content/cache/

Disallow: /blog/wp-content/themes/

Disallow: /blog/wp-content/upgrade/

Disallow: /blog/tmp/

Disallow: /blog/wp-login.php

Disallow: /blog/wp-register.php

Disallow: /tag

Disallow: /feed

Disallow: /trackback

Disallow: /comments

Disallow: /category

Sitemap:в обычном виде

Юридический и прочий копирайтинг (http://www.free-lance.ru/users/anse/?f=2#120) Здесь кое-что про Испанию (http://www.lawru.com/)

[Удален]

10 июня 2010, 22:16

#6

martiniskon:
Искал по форуму, но что-то темка толком не раскрыта. Посетил кучу блогов, в т.ч. и известных блоггеров. Они по-прежнему спорят между собой, насчет правильного robots.

Да никто особо не спорит. Единственное что... А зачем все закрывают страницу тегов? Её тоже можно продвигать.

39

Юлия Мар

10 июня 2010, 22:58

#7

bukvofil:
Да никто особо не спорит. Единственное что... А зачем все закрывают страницу тегов? Её тоже можно продвигать.

У меня прописаны Title и description в тэгах, но по ним же дубли текста выползут, вот и закрыла от греха подальше.

559

MyOST

10 июня 2010, 23:08

#8

martiniskon, все просто - нужно запретить те страницы, которые не должны индексироваться, к примеру системные или дублирующие. Вот пример моего файла роботс

http://seom.info/robots.txt

User-agent: *

Disallow: /redirect/ - запрещаем редиректы (не относится к блогу)

Disallow: /author/ - запрещаем к индексации системные страницы про автора поста

Disallow: /wp-admin/ - админка

Disallow: /wp-includes - админка

Disallow: /category/ - выкидываем категории, как дубли контента

Disallow: /category/*/* - выкидываем категории, как дубли контента

Disallow: /page/ - выкидываем постраничную навигацию, как дубли контента

Disallow: /?feed= - фиды

Disallow: /?s= - поиск

Disallow: /xmlrpc.php - системные

Disallow: /wp-login.php - системные

Disallow: /wp-register.php - системные

Disallow: */comments - дублирующие страницы с комментариями

Disallow: */comment-page*- дублирующие страницы с комментариями

Disallow: /*trackback - трекбэки

Disallow: /*feed - фиды

Disallow: /author* - авторы

Disallow: /*?* - вариации несущесвтующих урлов

Disallow: /*? - вариации несущесвтующих урлов

Disallow: /?* - вариации несущесвтующих урлов

Disallow: */feed -фид

Disallow: /feed -фид

Disallow: */trackback -трекбэки

Disallow: /tag/*/page -постраничная навигация на страницах тегов, при этом сами теги в индексе

Host: seom.info

Еще страницы архивов как дубли можно выкинуть, просто у меня их нет.

В остальном - у каждого своя структура, избавляйтесь от системных страниц, избавляйтесь от дублированного контента внутри сайта, будет Вам счастье.

Блог (http://seom.info/) | Ты уже SEO профессионал? (http://www.key-collector.ru/) Развиваем семантику более 8 лет! ()

42

martiniskon

14 июня 2010, 15:38

#9

Спасибо всем за помощь, но есть еще вопросы.

1) Какие права выставлять на robots.txt?

2) Для яндекса не нужно писать отдельный список? Т.е. у нас идет User-agent: * - общий и отдельно User-Agent: Yandex. Общего достаточно?

3) Все по-разному написали, следовательно, вопрос. Есть ли разница (для поисковиков) в написании? Например:

Disallow: /wp-admin/ и Disallow: /wp-admin

Disallow: /wp-includes/ и Disallow: /wp-includes

4) У многих в блогах встретил это: Allow: /wp-content/uploads нужно все-таки или нет?

5) Есть ли разница для поисковиков в последовательности. Например:

Disallow: */comments

Disallow: */comment-page*

Disallow: /*trackback

Disallow: /*feed

Disallow: /author*

или "череданём" вот так:

Disallow: */comments

Disallow: /author*

Disallow: /*trackback

Disallow: /*feed

Disallow: */comment-page*

NC

31

Ne&Co

14 июня 2010, 17:04

#10

Disallow: /wp-admin/ и Disallow: /wp-admin

Первый вариант запретит индексировать файлы из директории wp-admin, но не запретит индексировать файлы из директорий, вложенных в wp-admin.

Второй вариант запретит индексировать и во вложенных в wp-admin директориях.

Актуален обмен ссылками: универсальное (/ru/forum/503305), фото (/ru/forum/503307)

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел