Странные ссылки в консоли веб мастера

12
H8
На сайте с 03.05.2010
Offline
85
1059

Здравствуйте, господа.

Не могу понять происходящее. Обнаружил в консоли веб мастера в Sitemap Coverage вот такие вот ссылки:

сайт/page/10/?p%252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D28869

сайт/page/10/?p%25252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D14781
сайт/page/10/?p%2525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D28869
сайт/page/10/?p%25252525252525252525252525252525252525252525252525252525252525253D28868
сайт/page/10/?p%25252525252525252525252525252525252525252525253D28864
сайт/page/10/?p%252525252525252525252525252525252525253D28819
сайт/page/1045/?p%252525252525253D28868

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL. 

Однако, её видит бот гугла, и пытается индексировать. Я подозреваю, это сокращает бюджет обхода ссылок сайта роботом, так как вся она в Crawled - currently not indexed. Раз он пытается её обойти, значит, её он где-то нашел.

В консоли если посмотреть источник ссылки, то там в discovery указана предыдущая страница. То есть бот нашел ссылку вида сайт/page/10/?p%25252525... на странице  /page/9/?p%25252525..., и так далее.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать? 

alaev
На сайте с 18.11.2010
Online
726
#1
У меня Яндекс видит аналогичное на не главном зеркале на http и пытается индексировать 301 страницу 😁

В моём случае - это боты. Лекарство - в подписи.
Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
M
На сайте с 17.06.2021
Offline
72
#2
hb860 :

Здравствуйте, господа.

Не могу понять происходящее. Обнаружил в консоли веб мастера в Sitemap Coverage вот такие вот ссылки:

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL. 

Однако, её видит бот гугла, и пытается индексировать. Я подозреваю, это сокращает бюджет обхода ссылок сайта роботом, так как вся она в Crawled - currently not indexed. Раз он пытается её обойти, значит, её он где-то нашел.

В консоли если посмотреть источник ссылки, то там в discovery указана предыдущая страница. То есть бот нашел ссылку вида сайт/page/10/?p%25252525... на странице  /page/9/?p%25252525..., и так далее.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать? 

в роботсе запретите индексацию 
сайт/page/*/?p%*

Bybit крипто биржа https://partner.bybit.com/b/58507 /// Зарубежные VPS с оплатой РФ картами https://aeza.net/?ref=416422 (+15% к пополнению) //// Обучаем нейронки на сайте https://f4ck41.fun/
Vladimir
На сайте с 07.06.2004
Offline
543
#3
hb860 :

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать? 

Надо:
- проверить сам движок, не генерит ли он данную ссылку
- роботс это полумеры, яндекс вначале их будет закидывать в индекс потом выкидывать по правилу роботс
- закрыть совсем  /? в файле htaccess. Первые 4 строки, разрешаем использование /?
Все остальное запрещаем. Пример для Wordpress

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} !^/wp-admin/
RewriteCond %{REQUEST_URI} !^/wp-json/
RewriteCond %{REQUEST_URI} !^/wp-login.php
RewriteCond %{REQUEST_URI} !^/index.php
RewriteCond %{THE_REQUEST} \?
RewriteRule ^(.*)$ /$1? [R=301,L]
</IfModule>

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
H8
На сайте с 03.05.2010
Offline
85
#4

* Проверил, не генерит. 

* Robots не поможет, да. 

* Временно сделал отлуп 403 на эти запросы

Попробую составить белый список того, что движок может отдавать. Остальное буду закрывать. 

Спасибо за рекомендации.

SeVlad
На сайте с 03.11.2008
Offline
1609
#5
Vladimir #:
Пример для Wordpress

Пример чего там быть не должно.


hb860 #:
Попробую составить белый список того, что движок может отдавать. Остальное буду закрывать. 

Неужто в роботсе?

Не майся фигнёй - сделай с таких параметров 301. И каноникал пропиши.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
W1
На сайте с 22.01.2021
Offline
297
#6
hb860 #:
Проверил, не генерит

Посмотрите в исходном коде
<link rel='shortlink' href=

Это оттуда ноги растут, судя по URL. Изначальная ссылка 

сайт/page/10/?p=28868

А дальше она почему-то URL-кодируется.

Правда, смущает /page/10/ - но мало ли какие чудеса...

Мой форум - https://webinfo.guru –Там я всегда на связи
H8
На сайте с 03.05.2010
Offline
85
#7
webinfo #:

Это оттуда ноги растут, судя по URL. Изначальная ссылка 

Не оттуда. Каноникал прописан правильно.

SeVlad #:

Пример чего там быть не должно.


Неужто в роботсе?

>>Неужто в роботсе

Настройками сервера

>>Не майся фигнёй - сделай с таких параметров 301. И каноникал пропиши.

И так всё прописано.

--------------

Вот что я нарыл.

  • Берем любой сайт на вордпресс.
  • Открываем любую страницу, и дописываем к урлу в адресной строке /?d%2323213213, жмём Enter.
  • Смотрим исходник страницы. Wordpress меняет разметку исходной страницы, и насовывает этот запрос в ряд своих ссылок, в том числе в ссылки перехода.

Что я думаю. Где-то затесалась ссылка с таким параметром со стороннего сайта, форума, да откуда угодно. Робот прошёл по ней, и нашел их все.

Это ошибка в WordPress, такого не должно быть. Ни при каких условиях не должны меняться ссылки в коде страницы.

Чтобы вы понимали, о чём я, я прикладываю скриншоты. Посмотрите, как работает движок с параметрами запроса. 

png se1.png
png se2.png
png se3.png
png se4.png
png ksnip_20210720-190107.png
W1
На сайте с 22.01.2021
Offline
297
#8
hb860 #:
Каноникал прописан правильно.

При чём здесь каноникал вообще?

W1
На сайте с 22.01.2021
Offline
297
#9
hb860 #:
  • Берем любой сайт на вордпресс.
  • Открываем любую страницу, и дописываем к урлу в адресной строке /?d%2323213213, жмём Enter.
  • Смотрим исходник страницы. Wordpress меняет разметку исходной страницы, и насовывает этот запрос в ряд своих ссылок, в том числе в ссылки перехода.
  • Попробовал на паре сайтов - нет такого.

    H8
    На сайте с 03.05.2010
    Offline
    85
    #10

    Простите, про каноникал было другому участнику дискуссии (SeVlad), просто я поломал разметку в своем ответе

    webinfo #:

    Попробовал на паре сайтов - нет такого.

    Это воспроизводится даже на официальном блоге движка.
    png webinfo1.png
    png webinfo2.png
    png webinfo3.png
    png webinfo5.png
    12

    Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий