Попробуйте исправить следующую ошибку в файле robots. Txt, которая показывается в Google Search Console - Вопросы новичков в SEO

Все вопросы по robots.txt - 2

KeicH2O · 2020-07-28T15:09:23.0000000Z

Конеш я не спорю, что нужно читать рекомендации яндекса и гугла, что нужно читать и разбираться. Я не спорю может с тем, что вопрос задал не корректно, если бы разбирался во всем этом и вопрос был бы поставлен как нужно. Дело в том что к примеру я знаю какие разделы или категории нужно закрыть на сайте, но я не знаю всех системных вещей. К примеру раньше закрывали wp-content, теперь рекомендуют этого не делать. Я не совсем понимаю к примеру, какие скрипты для загрузки нужны поисковикам с системных папок cgi-bin. Я хочу чтобы в ПИ небыло мусора как feed, который есть в скрытых результатах гугла, но нету в яше. Хочу чтобы ПИ правильно подгружали скрипты и картинки. Не знаю правильно ли щас изложил мысли). Может вообще уже ничего закрывать ненужно от роботов, может гуглойд и яша научились не парсить в индекс всякий мусор ------------------------- Примечание модератора Предыдущая тема: /ru/forum/828288

173

ranking factor

7 августа 2018, 19:41

#161

Время от времени поочередно на разных сайтах тоже появляется это "Проиндексировано, несмотря на блокировку в файле robots.txt". Совпадение или нет, не знаю, но всегда приходит по понедельникам. С сотрудниками смеемся на эту тему, мол у Гоши будун с утра, не видит даже дизы в роботсе 😂 и глючить начинает,

Тупо тискаем "проверить" в новой версии webmasters и через пару недель приходит, что типа проверили и ошибка устранена.

Так что сильно не переживайте, люди болеют, а боты тем паче 🤣

Яндекс не индексирует новый АП-АП сайт в выдаче Всплекс ошибок - Проиндексировано,

369

Samail

8 августа 2018, 12:35

#162

Проиндексировано, несмотря на блокировку в файле robots.txt. Страница была проиндексирована, несмотря на блокировку файлом robots.txt (Google всегда следует предписаниям этого файла, однако если на других сайтах есть ссылки на вашу страницу, robots.txt не поможет). Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска. Если ваше намерение именно таково, файл robots.txt не является корректным способом избежать индексации. Чтобы страница не была проиндексирована, необходимо использовать тег noindex или запретить анонимный доступ к ней. С помощью специального инструмента можно понять, какое именно правило блокирует страницу. Из-за файла robots.txt страница может не самым оптимальным образом показываться в результатах поиска. Если вы не хотите удалять страницу из результатов поиска, измените файл robots.txt.

https://support.google.com/webmasters/answer/7440203?hl=ru

EW

2

EvgeniaW

10 августа 2018, 14:18

#163

Добрый день

На сайте есть раздел новинки - как категория каталога.

Урл https://sirop.club/catalog/category/new/

В нем есть деление по группам товаров, например, новинки в птице

урл https://sirop.club/catalog/category/new/birds/

Также если зайти сначала в категорию птицы, затем там выбрать новинки, то получаем урл

https://sirop.club/catalog/category/birds/new/

Согласно Pagerank, страницы вида

https://sirop.club/catalog/category/birds/new/

имеют больший вес чем

https://sirop.club/catalog/category/new/birds/

Следовательно, последний тип нужно закрыть в robots, чтобы поисковые машины их не учитывали (листинг товаров абсолютно идентичен)

Правильно ли я понимаю, что в роботс должно быть прописано

Disallow: /category/new/

И при этом страницы правильно вида, например, https://sirop.club/catalog/category/birds/new/ не будут заблокированы для индексации? Или требуется добавить какой-то дополнительный параметр allow?

Заранее спасибо за разъяснения.

robots.txt для динамических урлов. Нужны подробности при создании вопрос по robots.txt на

M

223

miketomlin

11 августа 2018, 13:41

#164

Если таким макаром, то нужно от корня прописывать.

Выбирайте тот вариант, который лучше укладывается в структуру. Ссылку на другой, естественно, убирайте с сайта. По идее таких дублей в принципе не должно быть.

Домены и скрипт для коротких ссылок: https://u75.ru/domains-for-shortcuts

Функция include - вопрос Сайт с www и Перенос аккаунта - объясните

325

Станислав Романенко

11 августа 2018, 19:37

#165

EvgeniaW:
Правильно ли я понимаю, что в роботс должно быть прописано
Disallow: /category/new/

Нет, надо вот так:

Disallow: /catalog/category/new/

Если хотите саму страницу https://sirop.club/catalog/category/new/ при этом оставить открытой, то ещё добавляете строчку:

Allow: /catalog/category/new/$

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).

O

0

Odwin

14 августа 2018, 07:22

#166

Доброго дня. Сайт в яндексе внезапно попал в Дорвеи. Сайту месяца нет, всего 7 страниц. Текст весь оригинальный (заказывал писать). На все 7 страниц сайта всего 4 ссылки на сторонние сайты. Причем все сайты "серьезные", то есть ссылаются на яндекс, гугл, мэйл. Дорвеем тут и не пахнет.

Сайт работает на WP. Информацию на сайте выкладываю в виде страниц (не посты).

сайт.ру/статья1

сайт.ру/статья2

сайт.ру/статья3

И так далее. Но бот яндекса усиленно стучится куда не надо. Например

/author/admin/feed/
/comments/feed/
/wp-includ
/wp-json/oembed/1.0/embedes/wlwmanifest.xml

И так далее. В robots.txt обширное правило. Но видно не могу обхватить ВСЕ.

Суть моего вопроса, как сделать правило так, что бы роботы ходили лишь по 7 страницам и не лез больше никуда дальше эти 7 страниц ?

Пока додумался до этого, но включать эти правила как-то побаиваюсь

User-agent: *
Disallow: /*
Allow: /статья1
Allow: /статья2
Allow: /статья3
Allow: /статья4
Allow: /wp-content/uploads/

User-agent: Yandex
Disallow: /*
Allow: /статья1
Allow: /статья2
Allow: /статья3
Allow: /статья4
Allow: /wp-content/uploads/

User-agent: Googlebot
Disallow: /*
Allow: /статья1
Allow: /статья2
Allow: /статья3
Allow: /статья4
Allow: /wp-content/uploads/

Может ли Гугль забанить Яндекс не ест больше Куча исключенных страниц.

15

seodsmaster

14 августа 2018, 07:23

#167

Коллеги! Подскажите, как можно исправить следующую ошибку в файле robots.txt, которая показывается в Google Search Console?

Ниже привожу весь файл:

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

User-agent: Yandex

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter=

Disallow: /*&filter=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Clean-param: tracking

Google Search Console показывает на ошибку в Clean-param: tracking

Директива Clean-param: в robots.txt Robot.txt помогите правильно настроил? Все вопросы по robots.txt

[Удален]

14 августа 2018, 08:00

#168

Чем это извращение поможет от метки "Дорвей"?

325

Станислав Романенко

14 августа 2018, 08:17

#169

Гугл не знает директивы Clean-param, поэтому никак не исправить.

O

0

Odwin

14 августа 2018, 09:34

#170

Miha Kuzmin (KMY):
Чем это извращение поможет от метки "Дорвей"?

Читал что из-за большой числа "мусорных" страниц может в дорвей кинуть. А робот активно по левым ссылкам пошел.

Robots.txt такой


User-agent: *              	 	# общие правила для роботов, кроме Яндекса и Google, 

Disallow: /?                		# все параметры запроса на главной

Disallow: /wp-              		# все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s=              		# поиск

Disallow: *&s=              		# поиск

Disallow: /search/          	# поиск

Disallow: /author/          	# архив автора

Disallow: /users/           	# архив авторов

Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 

Disallow: /wp-json/*	

Disallow: /2018*

Disallow: /2019*

Disallow: /2020*

Disallow: /comments/*

Disallow: */feed            	# все фиды

Disallow: */rss             		# rss фид

Disallow: */embed           	# все встраивания

Disallow: */wlwmanifest.xml 

Disallow: /xmlrpc.php       # файл WordPress API

Disallow: *utm*=             	# ссылки с utm-метками

Disallow: *openstat=        	# ссылки с метками openstat

Allow: */uploads            	# открываем папку с файлами uploads



User-agent: GoogleBot  	# правила для Google

Disallow: /comments/*

Disallow: /cgi-bin

Disallow: /2018*

Disallow: /2019*

Disallow: /2020*

Disallow: /?

Disallow: /wp-

Disallow: /wp/

Disallow: *?s=

Disallow: *&s=

Disallow: /search/

Disallow: /author/

Disallow: /users/

Disallow: */trackback

Disallow: */feed

Disallow: */rss

Disallow: */embed

Disallow: */wlwmanifest.xml

Disallow: /xmlrpc.php

Disallow: *utm*=

Disallow: *openstat=

Allow: */uploads

Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)

Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)

Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.

Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS



User-agent: Yandex          # правила для Яндекса

Disallow: /comments/*

Disallow: /2018*

Disallow: /2019*

Disallow: /2020*

Disallow: /cgi-bin

Disallow: /?

Disallow: /wp-

Disallow: /wp/

Disallow: *?s=

Disallow: *&s=

Disallow: /search/

Disallow: /author/

Disallow: /users/

Disallow: */trackback

Disallow: */feed

Disallow: */rss

Disallow: */embed

Disallow: */wlwmanifest.xml

Disallow: /xmlrpc.php

Allow: */uploads

Allow: /*/*.js

Allow: /*/*.css

Allow: /wp-*.png

Allow: /wp-*.jpg

Allow: /wp-*.jpeg

Allow: /wp-*.gif

Allow: /wp-admin/admin-ajax.php



Sitemap: сайт/sitemap.xml

Host: сайт

Но яндекс активно лезет на страницы /feed и так далее.

Честно говоря я понять не могу почему в дорвей записали сайт. На другие сайты ссылок нет. Текст писался на заказ и он уникальный и по тематике.

Дорвей или нет? Карта о дорвеях... Мой сайт забанен Яндексом?

Все что нужно знать о DDоS-атаках грамотному менеджеру

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Все вопросы по robots.txt - 2