Kokh

Kokh
Рейтинг
58
Регистрация
24.05.2006
Интересы
soad forever
XTR:
Если урлы страниц однотипные, как в вашем случае, site.ru/itemN.html - просто пропишите в robots.txt:

Disallow: /item

и при удалении URLа (http://www.site/item) укажите, что надо удалить все урлы, начинающиеся на item
QUOTE]
Ага, пасиб :) А если все не надо, например, надо удалить только диапазон адресов от item1 до itemN или от itemN до itemM, или вообще выборочно? Не писать же все 20 тыщ запрещенных адресов в robots.txt, Яндекс такой роботс вобще откажется читать :)
Каширин:
Есть лимит, и он как раз на уровне 100к страниц.

Есть примеры и под 200К, получается все в разных условиях?

Закрывайте не существующие страницы в robots.txt.

Адреса страниц не переделывали, в этом случае действительно Moved Permanently пришлась бы кстати. Ситуация возникла когда пришлось одномоментно удалить устаревшую информацию, где-то около 20К. Роботс не поможет, повторюсь.

patan:
Kokh, если страницы нет на Вашем сайте - то проблемы яндекса, как их удалять из своей базы устаревший хлам. Вам то что с того? Чем это мешает жить?
ps запрещать надо в роботс.

Дело в том, что Яндекс начал неохотно индексировать новые страницы, вот у меня и возникла мысль помочь ему "разгрузиться". Раньше он просто тысячами их глотал. Не знаю с чем это связано, есть какой-то лимит проиндексированных страниц, так сказать критическая масса для отдельно взятого сайта? В общем не знаю, насколько эта теория верна. Кроме того, ситуация когда пользователь видит 404, тоже не есть гут, хоть она (ошибка 404) и выдается правильно, с формой поиска по сайту.

Kost:
Если у адресов страниц общее начало, для их удаления надо использовать robots.txt.

Это было бы слишком просто, придется эмулировать браузер :) Спасибо.

Bor-ka:
за очень частое обращения Ваш IP могут забанить.

Да, собственно, и нет желания заспамить эту форму. Вопрос в том, применят ли санкции за автоматическое обращение. Определить, что обращаются не из браузера, думаю, не составит труда.

patan:
Давайте поздравим любимую компанию с переездом в собственный особнячёк.

Уж больно грозно выглядит http://company.yandex.ru/i/ch1.jpg

BigBrother:
Если мы не можем прочитать robots.txt, но знаем, что он есть - мы не можем определить, не запрещен ли сайт к индексации, и, как результат, считаем, что запрещен.

Это уже проверено? Мне кажется неправильно, не можем прочесть robots.txt - запретить сайт к индексации.

amfora:
Каждый день в списке проиндексированных страниц моего основного сайта - около 10 штук стоят с отметками "4 часа назад", "5 часов назад". А далее - идут страницы, проиндексированные 30 августа и ранее...

Аналогично. На первой странице проиндексированные 4-8 часов назад, на второй странице индекс от 30.08.2006. В течении недели ходит по одним и тем же адресам (переиндексирует). Общее число проиндексированных страниц колеблется то в большую, то в меньшую сторону.

pgifts:
Интересно... А как узнать какой код он выдает? 😮

Добавьте свой robots.txt в форму http://webmaster.yandex.ru, если проглотит, значит все нормально.

тиц подрос до 600,

предлагаю еще 3 сайта

тиц 350, pr 2

тиц 250, pr 3, ЯК web-дизайн

тиц 250, pr 3

Всего: 200