Странные ссылки в консоли веб мастера

12
H8
На сайте с 03.05.2010
Offline
85
1031

Здравствуйте, господа.

Не могу понять происходящее. Обнаружил в консоли веб мастера в Sitemap Coverage вот такие вот ссылки:

сайт/page/10/?p%252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D28869

сайт/page/10/?p%25252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D14781
сайт/page/10/?p%2525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D28869
сайт/page/10/?p%25252525252525252525252525252525252525252525252525252525252525253D28868
сайт/page/10/?p%25252525252525252525252525252525252525252525253D28864
сайт/page/10/?p%252525252525252525252525252525252525253D28819
сайт/page/1045/?p%252525252525253D28868

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL. 

Однако, её видит бот гугла, и пытается индексировать. Я подозреваю, это сокращает бюджет обхода ссылок сайта роботом, так как вся она в Crawled - currently not indexed. Раз он пытается её обойти, значит, её он где-то нашел.

В консоли если посмотреть источник ссылки, то там в discovery указана предыдущая страница. То есть бот нашел ссылку вида сайт/page/10/?p%25252525... на странице  /page/9/?p%25252525..., и так далее.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать? 

alaev
На сайте с 18.11.2010
Offline
534
#1
У меня Яндекс видит аналогичное на не главном зеркале на http и пытается индексировать 301 страницу 😁

В моём случае - это боты. Лекарство - в подписи.
Продвижение сайтов - https://alaev.net | Шаблон настроек .htaccess, который защитит сайт от ботового трафика прямыми заходами и ботов из социальных сетей. Гибкие настройки https://disk.yandex.ru/d/7m5wQQnfh5wu0A Управляй защитой своего сайта сам
M
На сайте с 17.06.2021
Offline
4
#2
hb860 :

Здравствуйте, господа.

Не могу понять происходящее. Обнаружил в консоли веб мастера в Sitemap Coverage вот такие вот ссылки:

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL. 

Однако, её видит бот гугла, и пытается индексировать. Я подозреваю, это сокращает бюджет обхода ссылок сайта роботом, так как вся она в Crawled - currently not indexed. Раз он пытается её обойти, значит, её он где-то нашел.

В консоли если посмотреть источник ссылки, то там в discovery указана предыдущая страница. То есть бот нашел ссылку вида сайт/page/10/?p%25252525... на странице  /page/9/?p%25252525..., и так далее.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать? 

в роботсе запретите индексацию 
сайт/page/*/?p%*

Vladimir
На сайте с 07.06.2004
Offline
398
#3
hb860 :

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать? 

Надо:
- проверить сам движок, не генерит ли он данную ссылку
- роботс это полумеры, яндекс вначале их будет закидывать в индекс потом выкидывать по правилу роботс
- закрыть совсем  /? в файле htaccess. Первые 4 строки, разрешаем использование /?
Все остальное запрещаем. Пример для Wordpress

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} !^/wp-admin/
RewriteCond %{REQUEST_URI} !^/wp-json/
RewriteCond %{REQUEST_URI} !^/wp-login.php
RewriteCond %{REQUEST_URI} !^/index.php
RewriteCond %{THE_REQUEST} \?
RewriteRule ^(.*)$ /$1? [R=301,L]
</IfModule>

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
H8
На сайте с 03.05.2010
Offline
85
#4

* Проверил, не генерит. 

* Robots не поможет, да. 

* Временно сделал отлуп 403 на эти запросы

Попробую составить белый список того, что движок может отдавать. Остальное буду закрывать. 

Спасибо за рекомендации.

SeVlad
На сайте с 03.11.2008
Offline
1506
#5
Vladimir #:
Пример для Wordpress

Пример чего там быть не должно.


hb860 #:
Попробую составить белый список того, что движок может отдавать. Остальное буду закрывать. 

Неужто в роботсе?

Не майся фигнёй - сделай с таких параметров 301. И каноникал пропиши.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Топики помощи с ⓌordPress (https://searchengines.guru/ru/forum/1032910 ) и основы безопасности сайтов ( https://searchengines.guru/ru/forum/774117 ). *** Помощь\консультации в топиках форума - БЕСПЛАТНО. Платные услуги ( https://wp.me/P3YHjQ-3 ) - с бюджетом от 150$ ***
W1
На сайте с 22.01.2021
Offline
72
#6
hb860 #:
Проверил, не генерит

Посмотрите в исходном коде
<link rel='shortlink' href=

Это оттуда ноги растут, судя по URL. Изначальная ссылка 

сайт/page/10/?p=28868

А дальше она почему-то URL-кодируется.

Правда, смущает /page/10/ - но мало ли какие чудеса...

Когда-нибудь здесь будет форум - https://webinfo.guru –Там я всегда на связи
H8
На сайте с 03.05.2010
Offline
85
#7
webinfo #:

Это оттуда ноги растут, судя по URL. Изначальная ссылка 

Не оттуда. Каноникал прописан правильно.

SeVlad #:

Пример чего там быть не должно.


Неужто в роботсе?

>>Неужто в роботсе

Настройками сервера

>>Не майся фигнёй - сделай с таких параметров 301. И каноникал пропиши.

И так всё прописано.

--------------

Вот что я нарыл.

  • Берем любой сайт на вордпресс.
  • Открываем любую страницу, и дописываем к урлу в адресной строке /?d%2323213213, жмём Enter.
  • Смотрим исходник страницы. Wordpress меняет разметку исходной страницы, и насовывает этот запрос в ряд своих ссылок, в том числе в ссылки перехода.

Что я думаю. Где-то затесалась ссылка с таким параметром со стороннего сайта, форума, да откуда угодно. Робот прошёл по ней, и нашел их все.

Это ошибка в WordPress, такого не должно быть. Ни при каких условиях не должны меняться ссылки в коде страницы.

Чтобы вы понимали, о чём я, я прикладываю скриншоты. Посмотрите, как работает движок с параметрами запроса. 

png se1.png
png se2.png
png se3.png
png se4.png
png ksnip_20210720-190107.png
W1
На сайте с 22.01.2021
Offline
72
#8
hb860 #:
Каноникал прописан правильно.

При чём здесь каноникал вообще?

W1
На сайте с 22.01.2021
Offline
72
#9
hb860 #:
  • Берем любой сайт на вордпресс.
  • Открываем любую страницу, и дописываем к урлу в адресной строке /?d%2323213213, жмём Enter.
  • Смотрим исходник страницы. Wordpress меняет разметку исходной страницы, и насовывает этот запрос в ряд своих ссылок, в том числе в ссылки перехода.
  • Попробовал на паре сайтов - нет такого.

    H8
    На сайте с 03.05.2010
    Offline
    85
    #10

    Простите, про каноникал было другому участнику дискуссии (SeVlad), просто я поломал разметку в своем ответе

    webinfo #:

    Попробовал на паре сайтов - нет такого.

    Это воспроизводится даже на официальном блоге движка.
    png webinfo1.png
    png webinfo2.png
    png webinfo3.png
    png webinfo5.png
    12

    Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий