Все вопросы по robots.txt

B4
На сайте с 27.04.2012
Offline
94
#201
artcrazy:
Камрады, помогите, пожалуйста, советом.

Создаю директиву
User-agent: *
Disallow: /p2

А Google WMT при тестировании robots.txt говорит, что URL вида
site.ru/rem/p20 - доступен для робота.

Подскажите, где ошибка?

И еще вопрос (если найдется решение на предыдущий), как аккуратно закрыть все страницы, в которых присутствуют: p1/p2/p3/p4/p5/p6/p7/p8/p9 (лишняя пагинация) ?

User-agent: *

Disallow: /*p2

это общее правило, но так вы рискуете закрыть страницы: /p2dsfsdf/

лучше каждый атрибут:

Disallow: /rem/p7

B4
На сайте с 27.04.2012
Offline
94
#202
artcrazy:
Камрады, помогите, пожалуйста, советом.

Создаю директиву
User-agent: *
Disallow: /p2

А Google WMT при тестировании robots.txt говорит, что URL вида
site.ru/rem/p20 - доступен для робота.

Подскажите, где ошибка?

И еще вопрос (если найдется решение на предыдущий), как аккуратно закрыть все страницы, в которых присутствуют: p1/p2/p3/p4/p5/p6/p7/p8/p9 (лишняя пагинация) ?

еще точнее будет:

User-agent: *

Disallow: /rem/p7$

маловероятно, но так вы не запретите url-ы /rem/p7sdfdsf

[Удален]
#203
artcrazy:
Камрады, помогите, пожалуйста, советом.

Создаю директиву
User-agent: *
Disallow: /p2

А Google WMT при тестировании robots.txt говорит, что URL вида
site.ru/rem/p20 - доступен для робота.

Подскажите, где ошибка?

И еще вопрос (если найдется решение на предыдущий), как аккуратно закрыть все страницы, в которых присутствуют: p1/p2/p3/p4/p5/p6/p7/p8/p9 (лишняя пагинация) ?

Я бы так сделал:

User-agent: *

Disallow: /rem/p*

C
На сайте с 19.11.2013
Offline
6
#204

Подскажите пожалуйста, вот мой файл robots.txt

User-agent: *
Disallow: /category/*/*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: */trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Disallow: /xmlrpc.php

User-agent: Yandex
Disallow: /category/*/*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /xmlrpc.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: */trackback
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Host: takeyourlife.ru

Делал его не я, взял откуда-то. Сайт на вордпрессе. Этот файл прикрывает рубрики от индексации (Disallow: /category/*/*). Получается, что индексируется только главная страница и только части статей, которые на главной странице, а сами статьи не индексируются, потому что вид ссылок /%category%/%postname%/. Если убрать строчку (Disallow: /category/*/*) не случится ли так, что ссылки станут неканоничными и всё будет плохо? Хотелось бы сохранить вид ссылок.

[Удален]
#205

В вордпрессе каждый пост доступен еще и по id. То есть в запись сайт.ру/статья можно попасть так: сайт.ру/?p=342

Стоит ли закрывать в роботсе второй вариант от индексации? Я его закрываю правилом /*?*

B4
На сайте с 27.04.2012
Offline
94
#206
Catalyst:
Подскажите пожалуйста, вот мой файл robots.txt



Делал его не я, взял откуда-то. Сайт на вордпрессе. Этот файл прикрывает рубрики от индексации (Disallow: /category/*/*). Получается, что индексируется только главная страница и только части статей, которые на главной странице, а сами статьи не индексируются, потому что вид ссылок /%category%/%postname%/. Если убрать строчку (Disallow: /category/*/*) не случится ли так, что ссылки станут неканоничными и всё будет плохо? Хотелось бы сохранить вид ссылок.

Не зачем брать чужой robots.txt, тем более если он Вам не подходит. Лучше оставить дефолтовый, и от него уже закрывать, то что Вам не нужно видеть в индексе. Для того, чтобы страницы делать каноническими, можно использовать тег canonical.

V4
На сайте с 29.04.2010
Offline
33
#207

каким инструментом можно выявить все дубли страниц, пример http://game-account.ru

Зароботок для опытных! Не по-детски :) https://webtransfer-finance.com/?id_partner=85010890 (https://webtransfer-finance.com/?id_partner=85010890 )
B4
На сайте с 27.04.2012
Offline
94
#208
vezu4iy:
каким инструментом можно выявить все дубли страниц, пример http://game-account.ru

Проверить можно лягушкой или любым другим тулзом, и отсортировать например по Title.

S
На сайте с 12.12.2013
Offline
21
#209

Подскажите. Нужно закрыть в robots.txt все ссылки содержащие элемент ?cur_cc. Правилен ли будет такой вариант: Disallow: /*?cur_cc*

Верно или нет?

shram
На сайте с 28.09.2006
Offline
87
#210

А как закрыть ссылку вот такого вида?

http://www.site.com/index.php?&MY_REQUEST_URI=/page1.html

Disallow: /*&MY_REQUEST_URI=*

Правильно будет?

Так как основные ссылки http://www.site.com/page1.html

www.shram.kiev.ua (http://www.shram.kiev.ua) Всё обо всём | Заработок на играх (https://www.admitad.com/ru/promo/?ref=8783191db7) | Скрипт переводчика Web-сайтов на лету (http://www.shram.kiev.ua/shop/translate/) с помощью google

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий