Вопрос по индексации и robots.txt

M
На сайте с 05.03.2009
Offline
75
789

Всем привет

у меня есть блог на ВП. Я заметил, что в кеше поисковиков проиндексировано много страниц моего блога которые создают дубли с контентом, это рубрики и архивы. Я закрыл их для поисковиков добавив в robots.txt несколько пунктов, в том числе и Disallow: /category/

А теперь вопрос. Робот приходит на мою главную страницу, что бы найти и проиндексировать новые статьи, и заходит по ссылкам мои рубрик, в которых есть новые статьи, но рубрики имеют адрес

http://my-site.com/category/my-rubric/

то есть получается что робот по этим ссылкам не пройдет, потому что у меня в robots.txt есть строка Disallow: /category/

и значит не сможет найти и проиндексировать новую запись.

Правильно я понимаю? или я что то путаю? может этту запись нужно убрать в robots.txt???

S
На сайте с 07.06.2008
Offline
14
#1
marininrm:
Всем привет

у меня есть блог на ВП. Я заметил, что в кеше поисковиков проиндексировано много страниц моего блога которые создают дубли с контентом, это рубрики и архивы. Я закрыл их для поисковиков добавив в robots.txt несколько пунктов, в том числе и Disallow: /category/

А теперь вопрос. Робот приходит на мою главную страницу, что бы найти и проиндексировать новые статьи, и заходит по ссылкам мои рубрик, в которых есть новые статьи, но рубрики имеют адрес
http://my-site.com/category/my-rubric/

то есть получается что робот по этим ссылкам не пройдет, потому что у меня в robots.txt есть строка Disallow: /category/
и значит не сможет найти и проиндексировать новую запись.
Правильно я понимаю? или я что то путаю? может этту запись нужно убрать в Disallow: /category/ ???

Да, Вы правильно понимаете.

Уберите эту строку и закройте в файле robots.txt только дубли.

M
На сайте с 05.03.2009
Offline
75
#2

так дело в том, что текст который есть в рубрике по адресу

http://my-site.com/category/my-rubric/

уже является дублем текста статьи. Потому что в рубрике есть по 4-7 первых предложений со статьи.

kimberlit
На сайте с 13.03.2007
Offline
370
#3

marininrm, робот найдёт страницы постов не только со страницы рубрики. Например, с главной, через sitemap ...

naiveleti
На сайте с 08.01.2009
Offline
57
#4

Здравствуйте,чтобы не флудить и не создавать новую тему решил воспользоваться этой и написать тут,вообщем есть сайт его robot.txt выглядит так:

User-agent: *

Disallow: /autobackup.php

Disallow: /admin.php

Disallow: /user/

Disallow: /favorites/

Disallow: /index.php?do=register

Disallow: /?do=lastcomments

Disallow: /statistics.html

Disallow: /cgi-bin/

Disallow: /templates/

Disallow: /engine/

Disallow: /forum/

Disallow: /languages/

Sitemap: http://здесь название этого сайта.ru/sitemap.xml

User-agent: Yandex

Host: здесь название этого сайта.ru

Слова здесь название этого сайта,естественно заменены доменом,неподумайте,что так и написано)))))

Хотелось бы узнать правильно ли он сделан?PS сайт на DLE

Scooby
На сайте с 07.09.2007
Offline
32
#5

naiveleti,

в целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow').

ЗЫ и должно быть robots.txt а не robot.txt ;)

женский бойцовский клуб (http://www.w-f-c.net) WFC
naiveleti
На сайте с 08.01.2009
Offline
57
#6
Scooby:
naiveleti,
ЗЫ и должно быть robots.txt а не robot.txt ;)

Это опечатка просто ;)

Тоесть должно выглядеть так

User-agent: *

Disallow: /autobackup.php

Disallow: /admin.php

Disallow: /user/

Disallow: /favorites/

Disallow: /index.php?do=register

Disallow: /?do=lastcomments

Disallow: /statistics.html

Disallow: /cgi-bin/

Disallow: /templates/

Disallow: /engine/

Disallow: /forum/

Disallow: /languages/

Sitemap: http://здесь название этого сайта.ru/sitemap.xml

User-agent: Yandex

Disallow: /engine/

Host: здесь название этого сайта.ru

Или яндекс по этому роботу уже не будет индексировать те категории которые не будут индексировать другие ПС?

Scooby
На сайте с 07.09.2007
Offline
32
#7

не будет, * относится и к яндексу. но повтор это не проблема. =)

Цахес
На сайте с 15.03.2007
Offline
205
#8

naiveleti,

Scooby:
* относится и к яндексу.
Минус один, Scooby!

В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются.

naiveleti, в соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки.

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий