Все вопросы по robots.txt - 2

ranking factor
На сайте с 01.12.2017
Offline
173
#161

Время от времени поочередно на разных сайтах тоже появляется это "Проиндексировано, несмотря на блокировку в файле robots.txt". Совпадение или нет, не знаю, но всегда приходит по понедельникам. С сотрудниками смеемся на эту тему, мол у Гоши будун с утра, не видит даже дизы в роботсе 😂 и глючить начинает,

Тупо тискаем "проверить" в новой версии webmasters и через пару недель приходит, что типа проверили и ошибка устранена.

Так что сильно не переживайте, люди болеют, а боты тем паче 🤣

Samail
На сайте с 10.05.2007
Offline
369
#162

Проиндексировано, несмотря на блокировку в файле robots.txt. Страница была проиндексирована, несмотря на блокировку файлом robots.txt (Google всегда следует предписаниям этого файла, однако если на других сайтах есть ссылки на вашу страницу, robots.txt не поможет). Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска. Если ваше намерение именно таково, файл robots.txt не является корректным способом избежать индексации. Чтобы страница не была проиндексирована, необходимо использовать тег noindex или запретить анонимный доступ к ней. С помощью специального инструмента можно понять, какое именно правило блокирует страницу. Из-за файла robots.txt страница может не самым оптимальным образом показываться в результатах поиска. Если вы не хотите удалять страницу из результатов поиска, измените файл robots.txt.

https://support.google.com/webmasters/answer/7440203?hl=ru

EW
На сайте с 09.08.2018
Offline
2
#163

Добрый день

На сайте есть раздел новинки - как категория каталога.

Урл https://sirop.club/catalog/category/new/

В нем есть деление по группам товаров, например, новинки в птице

урл https://sirop.club/catalog/category/new/birds/

Также если зайти сначала в категорию птицы, затем там выбрать новинки, то получаем урл

https://sirop.club/catalog/category/birds/new/

Согласно Pagerank, страницы вида

https://sirop.club/catalog/category/birds/new/

имеют больший вес чем

https://sirop.club/catalog/category/new/birds/

Следовательно, последний тип нужно закрыть в robots, чтобы поисковые машины их не учитывали (листинг товаров абсолютно идентичен)

Правильно ли я понимаю, что в роботс должно быть прописано

Disallow: /category/new/

И при этом страницы правильно вида, например, https://sirop.club/catalog/category/birds/new/ не будут заблокированы для индексации? Или требуется добавить какой-то дополнительный параметр allow?

Заранее спасибо за разъяснения.

M
На сайте с 04.12.2013
Offline
223
#164

Если таким макаром, то нужно от корня прописывать.

Выбирайте тот вариант, который лучше укладывается в структуру. Ссылку на другой, естественно, убирайте с сайта. По идее таких дублей в принципе не должно быть.

Домены и скрипт для коротких ссылок: https://u75.ru/domains-for-shortcuts
Станислав Романенко
На сайте с 05.09.2007
Offline
325
#165
EvgeniaW:
Правильно ли я понимаю, что в роботс должно быть прописано
Disallow: /category/new/

Нет, надо вот так:


Disallow: /catalog/category/new/

Если хотите саму страницу https://sirop.club/catalog/category/new/ при этом оставить открытой, то ещё добавляете строчку:


Allow: /catalog/category/new/$
Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
O
На сайте с 14.08.2018
Offline
0
#166

Доброго дня. Сайт в яндексе внезапно попал в Дорвеи. Сайту месяца нет, всего 7 страниц. Текст весь оригинальный (заказывал писать). На все 7 страниц сайта всего 4 ссылки на сторонние сайты. Причем все сайты "серьезные", то есть ссылаются на яндекс, гугл, мэйл. Дорвеем тут и не пахнет.

Сайт работает на WP. Информацию на сайте выкладываю в виде страниц (не посты).

сайт.ру/статья1

сайт.ру/статья2

сайт.ру/статья3

И так далее. Но бот яндекса усиленно стучится куда не надо. Например

/author/admin/feed/
/comments/feed/
/wp-includ
/wp-json/oembed/1.0/embedes/wlwmanifest.xml

И так далее. В robots.txt обширное правило. Но видно не могу обхватить ВСЕ.

Суть моего вопроса, как сделать правило так, что бы роботы ходили лишь по 7 страницам и не лез больше никуда дальше эти 7 страниц ?

Пока додумался до этого, но включать эти правила как-то побаиваюсь

User-agent: *
Disallow: /*
Allow: /статья1
Allow: /статья2
Allow: /статья3
Allow: /статья4
Allow: /wp-content/uploads/

User-agent: Yandex
Disallow: /*
Allow: /статья1
Allow: /статья2
Allow: /статья3
Allow: /статья4
Allow: /wp-content/uploads/

User-agent: Googlebot
Disallow: /*
Allow: /статья1
Allow: /статья2
Allow: /статья3
Allow: /статья4
Allow: /wp-content/uploads/
seodsmaster
На сайте с 04.10.2017
Offline
15
#167

Коллеги! Подскажите, как можно исправить следующую ошибку в файле robots.txt, которая показывается в Google Search Console?

Ниже привожу весь файл:

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

User-agent: Yandex

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Clean-param: tracking

Google Search Console показывает на ошибку в Clean-param: tracking

[Удален]
#168

Чем это извращение поможет от метки "Дорвей"?

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#169

Гугл не знает директивы Clean-param, поэтому никак не исправить.

O
На сайте с 14.08.2018
Offline
0
#170
Miha Kuzmin (KMY):
Чем это извращение поможет от метки "Дорвей"?

Читал что из-за большой числа "мусорных" страниц может в дорвей кинуть. А робот активно по левым ссылкам пошел.

Robots.txt такой


User-agent: * # общие правила для роботов, кроме Яндекса и Google,
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # поиск
Disallow: *&s= # поиск
Disallow: /search/ # поиск
Disallow: /author/ # архив автора
Disallow: /users/ # архив авторов
Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой
Disallow: /wp-json/*
Disallow: /2018*
Disallow: /2019*
Disallow: /2020*
Disallow: /comments/*
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: */embed # все встраивания
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php # файл WordPress API
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Allow: */uploads # открываем папку с файлами uploads

User-agent: GoogleBot # правила для Google
Disallow: /comments/*
Disallow: /cgi-bin
Disallow: /2018*
Disallow: /2019*
Disallow: /2020*
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex # правила для Яндекса
Disallow: /comments/*
Disallow: /2018*
Disallow: /2019*
Disallow: /2020*
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

Sitemap: сайт/sitemap.xml
Host: сайт

Но яндекс активно лезет на страницы /feed и так далее.

Честно говоря я понять не могу почему в дорвей записали сайт. На другие сайты ссылок нет. Текст писался на заказ и он уникальный и по тематике.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий