Яндекс туго воспринимает удаление малополезных страниц

JamesJGoodwin
На сайте с 15.02.2018
Offline
49
848

Месяца 2 назад я удалил малополезные страницы, которые Яндекс исключил из индекса по причине "Дубль" и "Низкое качество". Вместо них я добавил ещё порядка 20.000 страниц уже с полезным контентом (сервис работает по API, из которых и генерируется контент страницы). Но Яндекс что-то не алё. Рассказываю. Страницы были удалены таким образом, что они стали отдавать 410. Эту ошибку они отдавали месяц или около того. Примерно в то же время, когда были удалены старые страницы, были добавлены и новые. И с тех пор Яндекс показывает, что загружено то 100.000 страниц, то 61.000, то 68.000. Хотя в Sitemap всего 51.000 страниц. Откуда он эти страницы берёт вообще? Мало того, начал проседать трафик в выдаче (скорее всего из-за того, что сайт начал резко отдавать 404/410 ошибки в большом количестве). И вот так уже продолжается 2 с лишним месяца. Сканирование - 30.000 страниц с ошибкой 404 - две недели затишья - опять штурм сайта ботом Яндекса - 30.000 страниц с 404 ошибкой. Когда Яндекс уже наконец поймет, что страницы удалены и вернёт мне мой трафик?

Флот.ру (https://www.flaut.ru) - поможет найти дешёвые авиабилеты. Без рекламы. Без предложений докупить экскурсии или трансферы.
VW
На сайте с 25.09.2009
Offline
88
#1

У меня на сайте Яндекс проиндексировал огромное количество пустыхз страниц и страниц с неправильным урлом,

например файлы форума оказались вложены в кучу несуществующих папок:

/forum/forum/forum/forum/viewthread.php?thread_id=321 ==> /forum/viewthread.php?thread_id=321

/index.php/categ.php?cat=19 ==> /categ.php?cat=19

Для многих неправильных урлов я сделал редирект на правильный урл ==> Надеюсь что редирект выкинет их из индекса.

У меня на сайте уже давно НЕ установлены Wordpress и SMF

Но есть урлы Wordpress

/wp-content/uploads/2015/11/06290b5b23610549995339976536dba2.jpg

/?p=957

/839.html

а вот с этим не знаю что делать . куда редиректить

огромное количество страниц с надписью "Ошибка 404. Страница не найдена". Тоже индексируютчсся и обходятся роботом.

Для них я сделал редирект на одну 404 страницу. чтобы в индексе была одна.

любой урл например /56854/8569/658 ==> /error404.php

.htaccess

ErrorDocument 400 /page_errors.php?error=400
ErrorDocument 401 /page_errors.php?error=401
ErrorDocument 402 /page_errors.php?error=402
ErrorDocument 403 /page_errors.php?error=403
ErrorDocument 404 /page_errors.php?error=404
ErrorDocument 405 /page_errors.php?error=405
ErrorDocument 406 /page_errors.php?error=406
ErrorDocument 407 /page_errors.php?error=407
ErrorDocument 408 /page_errors.php?error=408
ErrorDocument 409 /page_errors.php?error=409
ErrorDocument 410 /page_errors.php?error=410
ErrorDocument 411 /page_errors.php?error=411
ErrorDocument 412 /page_errors.php?error=412
ErrorDocument 413 /page_errors.php?error=413
ErrorDocument 414 /page_errors.php?error=414
ErrorDocument 415 /page_errors.php?error=415
ErrorDocument 416 /page_errors.php?error=416
ErrorDocument 417 /page_errors.php?error=417
ErrorDocument 500 /page_errors.php?error=500
ErrorDocument 501 /page_errors.php?error=501
ErrorDocument 502 /page_errors.php?error=502
ErrorDocument 503 /page_errors.php?error=503
ErrorDocument 504 /page_errors.php?error=504
ErrorDocument 505 /page_errors.php?error=505

page_errors.php можно добавить if если у страницы неправильная папка но в принципе страницу с таким id можно найти


<?php
header("HTTP/1.1 404 Not Found");
header("Location: http://".$_SERVER['HTTP_HOST']."/error404.php" );
exit;
?>

и ещё эту страницу надо разделить по номерам error но пока руки не дошли

error404.php

любое содержание
JamesJGoodwin
На сайте с 15.02.2018
Offline
49
#2

Vveb--ws, так это ведь неправильно. Это, конечно, поможет и со временем такие страницы выпадут из поиска (как выпадет из поиска и адрес 404 страницы), но вообще по правилам веба, несуществующая страница должна отдавать 404 ошибку по тому же адресу, по которому она и была запрошена.

Сейчас у меня так:

if(!isset($available_pages[$uri_requested])) {
header($_SERVER["SERVER_PROTOCOL"] . ' 404 Not Found', true, '404');
require $root . '/error-pages/404/404.html';
return;
}
The WishMaster
На сайте с 29.09.2005
Offline
2543
#3
JamesJGoodwin:
20.000 страниц уже с полезным контентом

И что там за контент? Может, его только ты считаешь полезным?

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
JamesJGoodwin
На сайте с 15.02.2018
Offline
49
#4
The WishMaster:
И что там за контент? Может, его только ты считаешь полезным?

Робот может объективно оценить полезность контента? Полезным контентом называется то, что даёт пользователю ответ на его запрос в поисковой системе. Я удалил с сайта пустые страницы с текстами "Недостаточно данных" и "Нет данных для отображения" и заменил их на страницы с календарями, графиками, текстами и изобилием полезной пользователю информации. Раньше было 33.000 страниц, 5.000 из которых были с контентом. Сейчас на сайте 51.000 страниц, из которых с контентом 43-46 тысяч. Чувствуете разницу? А Яндекс её не чувствует и продолжает переживать, а как же там поживают старые страницы без контента, которые он сам же и попёр из индекса.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий