как удалить в вебмастере 43 тысячи страниц (взломали сайт)

12
A6
На сайте с 02.09.2019
Offline
78
#11
WebAlt #:

На переобход можно всего лишь 30 и без К.

https://www.indexnow.org/ru_ru/documentation


Все-таки 10000 урлов
Vladimir
На сайте с 07.06.2004
Offline
570
#12
Prodv1gator #:

Вчерашний список с 500 страниц на удаление Яндекс отклонил

В роботс.тхт поди запретили индексацию
Чтобы робот удалил или переобошел индексацию запрещать не надо

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
WebAlt
На сайте с 02.12.2007
Offline
259
#13
Andrew666 #:
Все-таки 10000 урлов

Я думал вы про ЯВМ, а так да.

Vladimir #:

В роботс.тхт поди запретили индексацию
Чтобы робот удалил или переобошел индексацию запрещать не надо

Как раз нужно,  в ЯВМ.Справке так и написано, ссылку я уже давал.

A6
На сайте с 02.09.2019
Offline
78
#14
WebAlt #:

Я думал вы про ЯВМ, а так да.

В вебмастере количество зависит от икса

W1
На сайте с 22.01.2021
Offline
306
#15
WebAlt #:
Как раз нужно,  в ЯВМ.Справке так и написано, ссылку я уже давал.

Вот лично я в этом шибко сомневаюсь. По крайней мере, Гугл чётко пишет, что нельзя прописывать эту директиву для исключения из индекса:

https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=ru

То есть Disallow - это вообще-то запрет сканирования, а не индексирования. И страница  естественно не будет проиндексирована если она не просканирована. А вот если она уже в индексе, то запрет на обращение к этой странице вовсе не означает, что страница будет исключена из индекса. Странно, если Яндекс работает иначе.

Блокировка индексирования при помощи директивы noindex | Центр Google Поиска  |  Документация  |  Google Developers
Блокировка индексирования при помощи директивы noindex | Центр Google Поиска  |  Документация  |  Google Developers
  • developers.google.com
Вы можете заблокировать показ страницы или другого ресурса в Google Поиске, добавив директиву в метатег на странице или в заголовок HTTP-ответа. Робот Googlebot проигнорирует страницу, обнаружив такой метатег или заголовок во время ее сканирования, даже если на эту страницу ссылаются другие сайты. Директива позволяет управлять доступом к...
Мой форум - https://webinfo.guru –Там я всегда на связи
Антоний Казанский
На сайте с 12.04.2007
Offline
714
#16
Prodv1gator :
Явебмастер пишет что загружено примерно 43500 страниц,  в поиске только пару сотен страниц

Пара сотен рабочих страниц или пара сотен, которые вредоностные?

Если вредоностные - принудительно на удаление то, что в индексе, остальное вредоностные (включая эти) - в disallow.

Если ошибка обработки заявки на удаление, значит код ответа сервера отличный от 404, а в вашему случае должен быть 404 (проверьте.)

Лопатить в заявки на удаление все 43,5K загруженных страниц не нужно, они сами вылетят в запрете в robots (правда не сразу).

Яндекс вполне справиться с исключением страниц и при явном запрете disallow в robots. Гугл может долгое время игнорировать инструкцию disallow.

Ставить плагин для переиндексации я смысла не вижу, ваша задача не переиндексировать инородные адреса, а убрать из индекса. Со временем актуальность их пропадёт и ничего особо специально здесь придумывать,  на мой взгляд, не нужно.

p.s. Ещё одним вариантом (без disallow), это проставить noindex в тег  X-Robots-Tag в коде ответа сервера - это действительно сработает более универсально и для Яндекса, и для Гугла. Но стоит ли оно того - решать вам :)

√ SEO продвижение ► https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга.
LiteCat
На сайте с 03.05.2007
Offline
240
#17

Я в таких случаях делаю IndexNow списка страниц, а они уже делают 301, 404 или canonical (зависит от случая)

Robots поможет только если легко обобщить шаблоном урлы страниц, если нет - только отбирать вручную, долго и медленно

Prodv1gator
На сайте с 30.06.2017
Offline
66
#18
Vladimir #:

В роботс.тхт поди запретили индексацию
Чтобы робот удалил или переобошел индексацию запрещать не надо


чтобы робот удалил как раз таки яндекс советует:

1. скрыть от индексации страницы в robots.txt
2. страница должна отдавать 404

допустим имеем страницы

site.com/virus/111
site.com/virus/222
site.com/virus/333


берем, обобщаем страницы и добавляем в robots.txt просто:

Disallow:  /virus/

проверяем что страницы отдают 404 (я их давно удалил поэтому там давно 404) и скармливаем на удаление явебмастеру список этих страниц


ВОПРОС

я заметил что на рассматриваемом сайте зараженные страницы имеют вид:

*.shtml
*.php
*?*

мне их запретить правильно вот так?

Disallow: *.shtml*
Disallow: *.php*
Disallow: /*?*

N
На сайте с 11.05.2011
Offline
127
#19
В гугл аналитик можно проверить роботс. 
A
На сайте с 22.03.2021
Offline
35
#20
Добавте все эти страницы в одну категорию потом добавте эту категорию в robots.txt и через пару упдейтов не будет ваших ссылок)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий