- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В итоге сервак загибается от частых запросов к дальним страницам сайта
в роботсе стоит Crawl-delay: 10 но похоже он его игнорит.
Может у майла есть что то типа гуглвебмастертулз?
Даже Яндекс игнорит роботс... Передавайте привет сексшопам.
А уж ваш кравл-делей вообще всем ПС пофигу
Вы уверены что это именно паук mail.ru? Может кто просто маскируется, проверьте ip с которых идут запросы.
Вы уверены что это именно паук mail.ru? Может кто просто маскируется, проверьте ip с которых идут запросы.
да, это именно mail.ru http://user-agent-string.info/list-of-ua/bots-ip?ip=217.69.134.91
добавил вот это в роботс чтобы закрыть от индексации архив, поможет или нет пока незнаю, он лезет именно в архив и начинает последовательно сканить страницы, LA тут же начинает расти и сервак загибается.
ссылки на новости такого вида http://site.com/2011/10/10/news/
Allow: /2009/*/*/
Allow: /2010/*/*/
Allow: /2011/*/*/
Allow: /2012/*/*/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
надеюсь правильно?
Allow: /2009/*/*/
Allow: /2010/*/*/
Allow: /2011/*/*/
Allow: /2012/*/*/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
надеюсь правильно?
Вы этим роботсом что хотели сказать то? Запутать мозги роботам? :)
Мне кажется, надо менять сервак, раз он загибается от простого майл-бота, а не закрывать сайт от индексации
<meta name="robots" content="noidex, nofollow"/> добавьте в хедер
для конкретных 4 страниц:
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Вы этим роботсом что хотели сказать то? Запутать мозги роботам? :)
Мне кажется, надо менять сервак, раз он загибается от простого майл-бота, а не закрывать сайт от индексации
Allow: /2009/*/*/
Allow: /2010/*/*/
Allow: /2011/*/*/
Allow: /2012/*/*/
Disallow: /2009/$
Disallow: /2010/$
Disallow: /2011/$
Disallow: /2012/$
То что вы сделали это вынос мозга
Allow: /2009/*/*/
Allow: /2010/*/*/
Allow: /2011/*/*/
Allow: /2012/*/*/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Дело в том, что правило Allow: /2012/*/*/ разрешает индексацию страниц раздела сайт.ру/2012/, имеющих трёхкратную вложенность. Ниже же вы запрещаете к индексации полностью раздел /2012/ - противоречив самому себе. Правило Disallow будет игнорироваться
я уже понял свою ошибку :) на счёт смены сервера подумаю, страниц действительно очень много, запретил пока ходить ботам по страницам добавив
Disallow: /page/
Disallow: */page/
судя по логу, помогло, теперь индексирует только сами новости.
Они клали на эти запреты железобетонный болт) Ходить они в любом случае будут, а вот брать документ в индекс или нет - уже подумают.
Mail свое уже прожил, пора на пенсию ему а почтовые акки гуглу отдать.