Проверьте все дубли страниц на вордпрессе - Вопросы новичков в SEO

Все вопросы по robots.txt

Cell · 2013-12-12T21:37:04.0000000Z

Вопросы по файлу robots.txt часто волнуют пользователей форума. Для облегчения поиска нужной информации создаётся отдельный топик, где вы можете задавать любые вопросы по составлению, оптимизации и работе файла robots.txt, отвечающего (если кто забыл) за ограничение доступа к содержимому сайта поисковым роботам. Базовые знания можно почерпнуть у: Википедии Яндекса Google - Инструменты для веб-мастеров Сайта robotstxt.org.ru P.S. Проверить свой robots.txt можно по ссылкам - в Яндекс: http://webmaster.yandex.ru/robots.xml#results в Google: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru Если после прочтения информации по ссылкам выше у вас остались вопросы - задавайте их в этом топике.

B4

94

bulatbulat48

14 августа 2014, 05:08

#201

artcrazy:
Камрады, помогите, пожалуйста, советом.

Создаю директиву
User-agent: *
Disallow: /p2

А Google WMT при тестировании robots.txt говорит, что URL вида
site.ru/rem/p20 - доступен для робота.

Подскажите, где ошибка?

И еще вопрос (если найдется решение на предыдущий), как аккуратно закрыть все страницы, в которых присутствуют: p1/p2/p3/p4/p5/p6/p7/p8/p9 (лишняя пагинация) ?

User-agent: *

Disallow: /*p2

это общее правило, но так вы рискуете закрыть страницы: /p2dsfsdf/

лучше каждый атрибут:

Disallow: /rem/p7

1

B4

94

bulatbulat48

14 августа 2014, 08:52

#202

artcrazy:
Камрады, помогите, пожалуйста, советом.

Создаю директиву
User-agent: *
Disallow: /p2

А Google WMT при тестировании robots.txt говорит, что URL вида
site.ru/rem/p20 - доступен для робота.

Подскажите, где ошибка?

И еще вопрос (если найдется решение на предыдущий), как аккуратно закрыть все страницы, в которых присутствуют: p1/p2/p3/p4/p5/p6/p7/p8/p9 (лишняя пагинация) ?

еще точнее будет:

User-agent: *

Disallow: /rem/p7$

маловероятно, но так вы не запретите url-ы /rem/p7sdfdsf

1

[Удален]

17 августа 2014, 16:18

#203

artcrazy:
Камрады, помогите, пожалуйста, советом.

Создаю директиву
User-agent: *
Disallow: /p2

А Google WMT при тестировании robots.txt говорит, что URL вида
site.ru/rem/p20 - доступен для робота.

Подскажите, где ошибка?

И еще вопрос (если найдется решение на предыдущий), как аккуратно закрыть все страницы, в которых присутствуют: p1/p2/p3/p4/p5/p6/p7/p8/p9 (лишняя пагинация) ?

Я бы так сделал:

User-agent: *

Disallow: /rem/p*

C

6

Catalyst

19 августа 2014, 15:46

#204

Подскажите пожалуйста, вот мой файл robots.txt

User-agent: *
Disallow: /category/*/*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: */trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Disallow: /xmlrpc.php

User-agent: Yandex
Disallow: /category/*/*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /xmlrpc.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: */trackback
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Host: takeyourlife.ru

Делал его не я, взял откуда-то. Сайт на вордпрессе. Этот файл прикрывает рубрики от индексации (Disallow: /category/*/*). Получается, что индексируется только главная страница и только части статей, которые на главной странице, а сами статьи не индексируются, потому что вид ссылок /%category%/%postname%/. Если убрать строчку (Disallow: /category/*/*) не случится ли так, что ссылки станут неканоничными и всё будет плохо? Хотелось бы сохранить вид ссылок.

XML Sitemap: самый непонимаемый Google: показать важность страниц Настройка индексирования нового сайта

[Удален]

14 сентября 2014, 00:35

#205

В вордпрессе каждый пост доступен еще и по id. То есть в запись сайт.ру/статья можно попасть так: сайт.ру/?p=342

Стоит ли закрывать в роботсе второй вариант от индексации? Я его закрываю правилом /*?*

Яндекс закрывает сервис блогов В инструменте проверки URL Google не советует закрывать

B4

94

bulatbulat48

23 сентября 2014, 13:21

#206

Catalyst:
Подскажите пожалуйста, вот мой файл robots.txt

Делал его не я, взял откуда-то. Сайт на вордпрессе. Этот файл прикрывает рубрики от индексации (Disallow: /category/*/*). Получается, что индексируется только главная страница и только части статей, которые на главной странице, а сами статьи не индексируются, потому что вид ссылок /%category%/%postname%/. Если убрать строчку (Disallow: /category/*/*) не случится ли так, что ссылки станут неканоничными и всё будет плохо? Хотелось бы сохранить вид ссылок.

Не зачем брать чужой robots.txt, тем более если он Вам не подходит. Лучше оставить дефолтовый, и от него уже закрывать, то что Вам не нужно видеть в индексе. Для того, чтобы страницы делать каноническими, можно использовать тег canonical.

Оцените сайт. Делаю все Передаются ли ПФ по Каноническая страница

V4

33

vezu4iy

23 сентября 2014, 14:14

#207

каким инструментом можно выявить все дубли страниц, пример http://game-account.ru

Зароботок для опытных! Не по-детски :) https://webtransfer-finance.com/?id_partner=85010890 (https://webtransfer-finance.com/?id_partner=85010890 )

B4

94

bulatbulat48

24 сентября 2014, 07:32

#208

vezu4iy:
каким инструментом можно выявить все дубли страниц, пример http://game-account.ru

Проверить можно лягушкой или любым другим тулзом, и отсортировать например по Title.

1

S

21

Sinnn

25 сентября 2014, 13:11

#209

Подскажите. Нужно закрыть в robots.txt все ссылки содержащие элемент ?cur_cc. Правилен ли будет такой вариант: Disallow: /*?cur_cc*

Верно или нет?

87

shram

25 сентября 2014, 15:13

#210

А как закрыть ссылку вот такого вида?

http://www.site.com/index.php?&MY_REQUEST_URI=/page1.html

Disallow: /*&MY_REQUEST_URI=*

Правильно будет?

Так как основные ссылки http://www.site.com/page1.html

www.shram.kiev.ua (http://www.shram.kiev.ua) Всё обо всём | Заработок на играх (https://www.admitad.com/ru/promo/?ref=8783191db7) | Скрипт переводчика Web-сайтов на лету (http://www.shram.kiev.ua/shop/translate/) с помощью google

Open AI тестирует память для ChatGPT

Все что нужно знать о DDоS-атаках грамотному менеджеру

Все вопросы по robots.txt