WebMaster. Что делать с ошибками HTTP, которые не может найти сканер?

М
На сайте с 03.02.2023
Offline
0
374
Здравствуйте!
Подскажите, пожалуйста! Сайт на вордпрессе.

Долгое время ломаю голову над тем, что делать с большим количеством ошибок HTTP в вебмастере, страниц для которых давным давно нет. Их число продолжительное время регулярно колеблется примерно от 50 до 200.
Сканировал сайт разными инструментами: Netpeak Spider (пока был доступен в России), SiteAnalyzer, SaitReport и даже XenuLink. Всё, что находил, это те ошибки, которые реально есть здесь и сейчас и которые я успешно исправлял. А теми ошибками, о которых говорит яндекс, даже и не пахло.

Запрет в robots.txt от них не спасает. Удаление через инструмент вебмастера не помогает. Неужели нужно вешать редирект на каждый адрес, вызывающий ошибку?
Есть небольшое количество внешних битых ссылок, но это от силы штук 20.
В выгрузке яндекс помечает часть URLов, будто бы они были взяты из sitemap. Хотя в актуальном sitemap нет ничего подобного. Более того, я из-за этого какое-то время специально генерировал, проверял и обновлял sitemap вручную: яндекс всё также говорил, что некоторые URLы взяты из sitemap, хотя их там и в помине не было.

Куда деваться от этих ошибок? Почему они возникают?
Можно/нужно написать ссылку на свой сайт? Какие требуется выгрузки и скрины?


Антоний Казанский
На сайте с 12.04.2007
Offline
642
#1
Марауль :
Долгое время ломаю голову над тем, что делать с большим количеством ошибок HTTP в вебмастере

C какими конкретно? С 404-ыми?


Марауль :
Сканировал сайт разными инструментами: Netpeak Spider (пока был доступен в России), SiteAnalyzer, SaitReport и даже XenuLink. Всё, что находил, это те ошибки, которые реально есть здесь и сейчас и которые я успешно исправлял. А теми ошибками, о которых говорит яндекс, даже и не пахло.

Всё верно, потому что вы проверяете фактическую навигацию на сайте, а ПС (в частности Яндекс) использует свою историю обхода по ссылкам, которые раньше были.


Марауль :
Неужели нужно вешать редирект на каждый адрес, вызывающий ошибку?

В идеале - да.


Марауль :
Куда деваться от этих ошибок?

Обрабатывать, либо плюнуть на это дело. 


Марауль :
Почему они возникают?

Уже отвечал выше - ПС использует те ссылки, которые находятся в его истории краулинга.


Марауль :
Можно/нужно написать ссылку на свой сайт? Какие требуется выгрузки и скрины?

Не нужно. Последовательно закрывайте 404-е ошибки 301-ыми редиректами и всё. Если конечно речь идёт о них.

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Научим создавать: боты, парсеры, работать с профилями для ПФ, присоединяйтесь -> https://goo.su/LrCGj
М
На сайте с 03.02.2023
Offline
0
#2

Уважаемый Антоний! Огромное спасибо за содержательный ответ! Теперь мне стало более понятно, как всё устроено :) Да, ошибки только и исключительно 404. Буду теперь от них будучи очень замотивированным избавляться :) Спасибо-спасибо за объяснение!!!

dansokolov
На сайте с 25.09.2007
Offline
138
#3
Антоний Казанский #:

Последовательно закрывайте 404-е ошибки 301-ыми редиректами и всё

Как же бесит эта (censored). Проиндексировать новый контент/переиндексировать существующий? нет, ресурсов нет, электричество подорожало, железо подорожало. Мы лучше будем помнить урлы, начиная с 2009 года, и начнем в них долбиться каждый день, на это ресурсы есть.

М
На сайте с 03.02.2023
Offline
0
#4

Забыл про это сказать. Я пользовался кое-какими инструментами для анализа кода сайта. Также ничего не нашёл. Единственное, что удалось найти в глубине админки вордпресса, так это редакции страниц за лохматые года, т.е. архив изменений. Да, там многие из страниц, которые сейчас 404, я увидел. Но на этом всё, потому что при прохождении по порядку по всем изменениям ясно видно, как проблемные URL исключаются с сайта и полностью перестают быть доступны. 

Антоний Казанский
На сайте с 12.04.2007
Offline
642
#5
dansokolov #:
Мы лучше будем помнить урлы, начиная с 2009 года, и начнем в них долбиться каждый день, на это ресурсы есть.

Тут дело не в давности. Тут дело в истории сайта. Оно может быть и так, что неделю назад был другой сайт и там были ссылки на десятки тысяч линков.

Потом (несколько дней назад) сайт сменился и поиск будет долбиться по несуществующим адресам еще несколько месяцев.


Марауль #:
Забыл про это сказать. Я пользовался кое-какими инструментами для анализа кода сайта. Также ничего не нашёл. Единственное, что удалось найти в глубине админки вордпресса, так это редакции страниц за лохматые года, т.е. архив изменений. Да, там многие из страниц, которые сейчас 404, я увидел. Но на этом всё, потому что при прохождении по порядку по всем изменениям ясно видно, как проблемные URL исключаются с сайта и полностью перестают быть доступны. 

Вы можете сильно не переживать за хождение Яндекса по несуществующим ссылкам. Если в текущей структуре ошибок нет - это самое главное.

Лучше направьте рабочую энергию на содержание сайта и задачи связанные с удовлетворением задач вашей аудитории - вот это действительно первостепенно важно. А мелкие технические частности, связанные с устаревшими данными не такой уж и принципиально важный вопрос.

Milaksa
На сайте с 19.12.2022
Offline
2
#6

Примерно похожая ситуация. Яндекс от куда-то из своего кеша, как фокусник из шляпы, достает страницы, которых нет на сайте около 3-х лет. И пытается по ним ходить довольно массово. Сайт пациента на Modx, поэтому какая CMS - вторично.

Помогло методичное отправление вручную на переобход давно не существующих страниц. При чем интересно, что на вопрос в техподдержку, Платоны ответили, что надо не отправлять их инструментом на удаление из индекса, а именно направлять просто на переобход. Платоны написали, что если отправить на удаление из индекса, робот страницу выкинет, но не "забудет", и в кеше она еще будет болтаться. 

A6
На сайте с 02.09.2019
Offline
70
#7

Яндекс вроде как уже год так делает. Сканирует сайт исходя из своей какой то базы, которая вероятнее всего не обновляется (примерно год). Вернее в нее все добавляется, но 404 и 301 он успешно сначала закидывает в индекс с "последним посещением от февраля-марта 22 года" и потом их же выкидывает как недостаточно качественные. А страницы уже год отдают 301.


A6
На сайте с 02.09.2019
Offline
70
#8

Так же при склейки доменов, уже год держит в "загруженных" 10т+ страниц.

Поддержка не поддержка по этим вопросам. Скорее всего ялм2 отвечает

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий