Комментарии - Kokh - Профиль вебмастера - Форум об интернет-маркетинге

11 сентября 2006, 09:58

XTR:
Если урлы страниц однотипные, как в вашем случае, site.ru/itemN.html - просто пропишите в robots.txt:

Disallow: /item

и при удалении URLа (http://www.site/item) укажите, что надо удалить все урлы, начинающиеся на item
QUOTE]
Ага, пасиб :) А если все не надо, например, надо удалить только диапазон адресов от item1 до itemN или от itemN до itemM, или вообще выборочно? Не писать же все 20 тыщ запрещенных адресов в robots.txt, Яндекс такой роботс вобще откажется читать :)

Удаление устаревших страниц

11 сентября 2006, 09:09

Каширин:
Есть лимит, и он как раз на уровне 100к страниц.

Есть примеры и под 200К, получается все в разных условиях?

Закрывайте не существующие страницы в robots.txt.

Адреса страниц не переделывали, в этом случае действительно Moved Permanently пришлась бы кстати. Ситуация возникла когда пришлось одномоментно удалить устаревшую информацию, где-то около 20К. Роботс не поможет, повторюсь.

Удаление устаревших страниц

11 сентября 2006, 08:52

patan:
Kokh, если страницы нет на Вашем сайте - то проблемы яндекса, как их удалять из своей базы устаревший хлам. Вам то что с того? Чем это мешает жить?
ps запрещать надо в роботс.

Дело в том, что Яндекс начал неохотно индексировать новые страницы, вот у меня и возникла мысль помочь ему "разгрузиться". Раньше он просто тысячами их глотал. Не знаю с чем это связано, есть какой-то лимит проиндексированных страниц, так сказать критическая масса для отдельно взятого сайта? В общем не знаю, насколько эта теория верна. Кроме того, ситуация когда пользователь видит 404, тоже не есть гут, хоть она (ошибка 404) и выдается правильно, с формой поиска по сайту.

Удаление устаревших страниц

11 сентября 2006, 08:35

Kost:
Если у адресов страниц общее начало, для их удаления надо использовать robots.txt.

Это было бы слишком просто, придется эмулировать браузер :) Спасибо.

Удаление устаревших страниц

11 сентября 2006, 08:12

Bor-ka:
за очень частое обращения Ваш IP могут забанить.

Да, собственно, и нет желания заспамить эту форму. Вопрос в том, применят ли санкции за автоматическое обращение. Определить, что обращаются не из браузера, думаю, не составит труда.

Пока яндекс переезжает...

11 сентября 2006, 07:53

patan:
Давайте поздравим любимую компанию с переездом в собственный особнячёк.

Уж больно грозно выглядит http://company.yandex.ru/i/ch1.jpg

Народ помогите pls. Резко упал сайт и при добавлении

11 сентября 2006, 07:43

BigBrother:
Если мы не можем прочитать robots.txt, но знаем, что он есть - мы не можем определить, не запрещен ли сайт к индексации, и, как результат, считаем, что запрещен.

Это уже проверено? Мне кажется неправильно, не можем прочесть robots.txt - запретить сайт к индексации.

У кого-нибудь есть движения в выдаче сейчас?

10 сентября 2006, 19:47

amfora:
Каждый день в списке проиндексированных страниц моего основного сайта - около 10 штук стоят с отметками "4 часа назад", "5 часов назад". А далее - идут страницы, проиндексированные 30 августа и ранее...

Аналогично. На первой странице проиндексированные 4-8 часов назад, на второй странице индекс от 30.08.2006. В течении недели ходит по одним и тем же адресам (переиндексирует). Общее число проиндексированных страниц колеблется то в большую, то в меньшую сторону.

Народ помогите pls. Резко упал сайт и при добавлении

8 сентября 2006, 11:08

pgifts:
Интересно... А как узнать какой код он выдает? 😮

Добавьте свой robots.txt в форму http://webmaster.yandex.ru, если проглотит, значит все нормально.

Продаются ссылки с морды тиц 500, pr3

7 июня 2006, 09:58

тиц подрос до 600,

предлагаю еще 3 сайта

тиц 350, pr 2

тиц 250, pr 3, ЯК web-дизайн

тиц 250, pr 3

Зачем быть уникальным в мире, где все можно скопировать

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Kokh