Мне тоже так казалось. Прошло уже достаточно времени, чтобы яндекс повторно прошелся по этим страницам и увидел 404, причем ничего не надо переиндексировать, просто получить код ответа сервера и удалить страницу из базы. Видимо этот механизм у них еще не достаточно отработан. Значит надо помогать, запрещать в роботсе, удалять через форму... Только пишут, что и это не действует.
Смотря какую причину требуется получить. Если на выходе должна получится жирная продажная морда, тогда есть смысл гнаться за следствием :)
Вероятно, с тИЦ 1000"несколько" выше она будет за счет переходов из каталогов, по ссылкам то есть. Само значение 1000, имхо, не влияет никак. Вывод делаю на основании наблюдений за своими сайтами.
ЦИт ему не поможет ;)
Индексатор работает целыми днями, но страницы, которые "стабильно" в индексе от30.08 и ранее. Ощущение такое, что новые страницы вносятся в базу и через небольшое время из нее удаляются.
Все об иконках для вебсайтов http://www.mithgol.ru/Web-faq/Favicons/
Теперь есть информация из первоисточника. Кому интересно: максимально допустимый размер robots.txt 32 килобайта.
Однако обещают в течении нескольких дней, если через форму.
И не надо, если сайт не большой по объему страниц. Но если индексированных уже зашкаливает за 100К, то Яндекс новые страницы глотает не так резво, тогда и возникает вопрос об "эффективной чистке старого хлама" из индекса.
Если удаляли через форму, то какой смысл ставить запрет? 404 выдает, значит индексировать нечего :) Кстати, я так и не понял, насколько быстро удалятся уже проиндексированные страницы из индекса, если их запретить в роботсе, и удалятся ли вообще. Саппорт Я об этом умалчивает, как и о максимально допустимом размере robots.txt 😒
Предполагаю, что ограничение такое же как и на макс. размер индексируемых страниц. Написал в Яндекс по поводу размера robots.txt.
А мысль тоже неплохая, то есть не просто выкладывать нагенеренные адреса, а пачками генерить их прямо в роботс, автоматизировать процесс.
Причем это будет легальный способ удаления, хоть и не такой быстрый как автоматический вызов http://webmaster.yandex.ru/delurl.xml Тогда, по идее, надо еще засекать обращения робота Я к robots.txt, чтоб обновлять список запрещенных адресов.