Скажу так, по опыту, хоть в роботс, хоть в nofollow, гугл бот все равно будет щарахаться по Вашему сайту и качасть страницы.
Для меня стало откровение, что на уже проиндексированные страницы, если поставить noindex, то они удаляются из индекса.
Так вот, как я полагаю, если не будет 404 и будут ссылки на этот мусор, на них все равно будет ходить бот, скачивать, но в индекс не будет засовывать.
Если ему будет 404 возвращаться, то он должен удалить из индекса. Хотя я видел случаи, когда весь сайт удалялялся, но в индексе сидело все.
Лично я бы 404 сделал со страницей "Упс, нет ничего".
А так, даже если удалятся страницы 150 000 штук, то бот будет ходить по ним - запрещай, не запрещай.
Кстати, Яндекс бот тоже самое делает.
Вы предположили, что получили фильтр из-за мусора (по факту мы имеем 150 000 дублей страниц).
Ваша задача, согласно этому предположению, убрать их из индекса и сделать так, чтобы потом по ним не шарахался робот. Кроме как 404 убить двух зайцев других способов в 5 утра мне в голову не приходят.
Вот это действительно странно :) Должно быть наоборот.
Если 90% вылетит из индекса и больше не войдет в индекс - напишите мне в личку (если потом вспомните).
Буду считать это экспериментом.
А вообще, даже если эти страницы уйдут из индекса таким образом, то робот все равно будет дальше к ним обращаться для выкачки (как показывает практика)
У Вас на них ссылки еще есть где-нибудь? Закрытие в метатегах и роботсе не дает гарантии что это страница не будет выкачиваться. Т.е. бот ее и дальше может выкачивать, только не размешать в индексе.
Вам нужно чтобы просто так 150 000 страниц постоянно сканировались?
404-ая даст боту знать, что ее больше нет.
Очень возможно. Они это называют: “thin” or poor content---------- Добавлено 27.09.2014 в 01:52 ----------
А Вы можете сделать так, чтобы когда бот будет обращаться к этим 150к страницам, чтобы вэб-сервер отдавал 404 ошибку и страницу "Ой, не найдено"?
Попробуйте как минимум это сделать/
сайтмэп и прочее Вы сможете сделать для каждого сайта отдельно
site.net/sitemap.xml <- основной домен
ru.site.net/sitemap.xml <- на россию
en.site.net/sitemap.xml <- пусть будет англий
fr.site.net/sitemap.xml <- на францию
Это не надолго. Последите за серпом, они вылетят. Такие обычно вылетают либо через алгоритмы ПС, либо по стуку.
гуглбот все равно будет лазить и скачивать и анализировать даже если запретить это.
Запрет означает лишь только то, что не попадет в индекс.
Он находит у Вас куча не уникального текста, сайт не трастовый и "кукуприехали".
Как вариант - в коде движка определять что зашел гугл бот и давать ему кастарированный контент, т.е. давать скачать только, например, 10 страничек, а на остальные не давать ссылок с этих 10 страничек.
До панды лучше не доводить. Разве только "напосмотреть".
Лучше всего создать тему - Опыт по выводу из под панды - найдется много желающих поделиться опытом.
Когда меня накрывало "что-то", я переписывал весь контент, который только можно переписать, отпускало.
Ну это только в том случае когда это можно сделать.
У Вас всего один сайт - site.net
Три сайта это:
ru.site.net
en.site.net
fr.site.net
Я правильно понимаю у Вас контент не уникальный (копипаст)?
Просьба уточнить, что Вы имеете ввиду под "сайт банится"?
Сейчас гугл панду накатывает, вот тема:
/ru/forum/867535