Странные ссылки в консоли веб мастера

85

hb860

19 июля 2021, 21:35

1059

Здравствуйте, господа.

Не могу понять происходящее. Обнаружил в консоли веб мастера в Sitemap Coverage вот такие вот ссылки:

сайт/page/10/?p%252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D28869

сайт/page/10/?p%25252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D14781

сайт/page/10/?p%2525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525252525253D28869

сайт/page/10/?p%25252525252525252525252525252525252525252525252525252525252525253D28868

сайт/page/10/?p%25252525252525252525252525252525252525252525253D28864

сайт/page/10/?p%252525252525252525252525252525252525253D28819

сайт/page/1045/?p%252525252525253D28868

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL.

Однако, её видит бот гугла, и пытается индексировать. Я подозреваю, это сокращает бюджет обхода ссылок сайта роботом, так как вся она в Crawled - currently not indexed. Раз он пытается её обойти, значит, её он где-то нашел.

В консоли если посмотреть источник ссылки, то там в discovery указана предыдущая страница. То есть бот нашел ссылку вида сайт/page/10/?p%25252525... на странице /page/9/?p%25252525..., и так далее.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать?

726

alaev

19 июля 2021, 23:42

#1

У меня Яндекс видит аналогичное на не главном зеркале на http и пытается индексировать 301 страницу 😁

В моём случае - это боты. Лекарство - в подписи.

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама

M

72

makepuff

20 июля 2021, 06:05

#2

hb860 :

Здравствуйте, господа.

Не могу понять происходящее. Обнаружил в консоли веб мастера в Sitemap Coverage вот такие вот ссылки:

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL.

Однако, её видит бот гугла, и пытается индексировать. Я подозреваю, это сокращает бюджет обхода ссылок сайта роботом, так как вся она в Crawled - currently not indexed. Раз он пытается её обойти, значит, её он где-то нашел.

В консоли если посмотреть источник ссылки, то там в discovery указана предыдущая страница. То есть бот нашел ссылку вида сайт/page/10/?p%25252525... на странице /page/9/?p%25252525..., и так далее.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать?

в роботсе запретите индексацию
сайт/page/*/?p%*

1

Bybit крипто биржа https://partner.bybit.com/b/58507 /// Зарубежные VPS с оплатой РФ картами https://aeza.net/?ref=416422 (+15% к пополнению) //// Обучаем нейронки на сайте https://f4ck41.fun/

543

Vladimir

20 июля 2021, 07:02

#3

hb860 :

Вот эта ерунда, начинающаяся с /?p% - не моя. У меня нет таких параметров URL.

Собственно, вопрос. Как найти, откуда это берется, и что с этим вообще делать? И надо ли что-то делать?

Надо:
- проверить сам движок, не генерит ли он данную ссылку
- роботс это полумеры, яндекс вначале их будет закидывать в индекс потом выкидывать по правилу роботс
- закрыть совсем /? в файле htaccess. Первые 4 строки, разрешаем использование /?
Все остальное запрещаем. Пример для Wordpress

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} !^/wp-admin/
RewriteCond %{REQUEST_URI} !^/wp-json/
RewriteCond %{REQUEST_URI} !^/wp-login.php
RewriteCond %{REQUEST_URI} !^/index.php
RewriteCond %{THE_REQUEST} \?
RewriteRule ^(.*)$ /$1? [R=301,L]
</IfModule>

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )

Как в WP сделать Вопрос по mySQL Рекомендации по созданию ЧПУ

H8

85

hb860

20 июля 2021, 09:02

#4

* Проверил, не генерит.

* Robots не поможет, да.

* Временно сделал отлуп 403 на эти запросы

Попробую составить белый список того, что движок может отдавать. Остальное буду закрывать.

Спасибо за рекомендации.

1609

SeVlad

20 июля 2021, 14:46

#5

Vladimir #:
Пример для Wordpress

Пример чего там быть не должно.

hb860 #:
Попробую составить белый список того, что движок может отдавать. Остальное буду закрывать.

Неужто в роботсе?

Не майся фигнёй - сделай с таких параметров 301. И каноникал пропиши.

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.

W1

297

webinfo

20 июля 2021, 15:24

#6

hb860 #:
Проверил, не генерит

Посмотрите в исходном коде
<link rel='shortlink' href=

Это оттуда ноги растут, судя по URL. Изначальная ссылка

сайт/page/10/?p=28868

А дальше она почему-то URL-кодируется.

Правда, смущает /page/10/ - но мало ли какие чудеса...

Мой форум - https://webinfo.guru –Там я всегда на связи

Рост роботности в Метрике Данные о каноническом адресе Учет canonical в Яндекс

H8

85

hb860

20 июля 2021, 16:05

#7

webinfo #:

Это оттуда ноги растут, судя по URL. Изначальная ссылка

Не оттуда. Каноникал прописан правильно.

SeVlad #:

Пример чего там быть не должно.

Неужто в роботсе?

>>Неужто в роботсе

Настройками сервера

>>Не майся фигнёй - сделай с таких параметров 301. И каноникал пропиши.

И так всё прописано.

--------------

Вот что я нарыл.

Берем любой сайт на вордпресс.
Открываем любую страницу, и дописываем к урлу в адресной строке /?d%2323213213, жмём Enter.
Смотрим исходник страницы. Wordpress меняет разметку исходной страницы, и насовывает этот запрос в ряд своих ссылок, в том числе в ссылки перехода.

Что я думаю. Где-то затесалась ссылка с таким параметром со стороннего сайта, форума, да откуда угодно. Робот прошёл по ней, и нашел их все.

Это ошибка в WordPress, такого не должно быть. Ни при каких условиях не должны меняться ссылки в коде страницы.

Чтобы вы понимали, о чём я, я прикладываю скриншоты. Посмотрите, как работает движок с параметрами запроса.

png se1.png

png se2.png

png se3.png

png se4.png

png ksnip_20210720-190107.png

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

W1

297

webinfo

20 июля 2021, 16:10

#8

hb860 #:
Каноникал прописан правильно.

При чём здесь каноникал вообще?

W1

297

webinfo

20 июля 2021, 16:16

#9

hb860 #:

Берем любой сайт на вордпресс.

Открываем любую страницу, и дописываем к урлу в адресной строке /?d%2323213213, жмём Enter.

Смотрим исходник страницы. Wordpress меняет разметку исходной страницы, и насовывает этот запрос в ряд своих ссылок, в том числе в ссылки перехода.

Попробовал на паре сайтов - нет такого.

H8

85

hb860

20 июля 2021, 16:21

#10

Простите, про каноникал было другому участнику дискуссии (SeVlad), просто я поломал разметку в своем ответе

webinfo #:

Попробовал на паре сайтов - нет такого.

Это воспроизводится даже на официальном блоге движка.

png webinfo1.png

png webinfo2.png

png webinfo3.png

png webinfo5.png

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, если ваша email-рассылка попала в спам