Mail.ru игнорит robots.txt

12
MB
На сайте с 24.02.2009
Offline
182
2041

В итоге сервак загибается от частых запросов к дальним страницам сайта

в роботсе стоит Crawl-delay: 10 но похоже он его игнорит.

Может у майла есть что то типа гуглвебмастертулз?

Shlackbaum
На сайте с 18.08.2010
Offline
322
#1

Даже Яндекс игнорит роботс... Передавайте привет сексшопам.

А уж ваш кравл-делей вообще всем ПС пофигу

Пустота. Какого черта здесь появляется чья-то реклама?
pikasso
На сайте с 27.01.2008
Offline
150
#2

Вы уверены что это именно паук mail.ru? Может кто просто маскируется, проверьте ip с которых идут запросы.

MB
На сайте с 24.02.2009
Offline
182
#3
pikasso:
Вы уверены что это именно паук mail.ru? Может кто просто маскируется, проверьте ip с которых идут запросы.

да, это именно mail.ru http://user-agent-string.info/list-of-ua/bots-ip?ip=217.69.134.91

добавил вот это в роботс чтобы закрыть от индексации архив, поможет или нет пока незнаю, он лезет именно в архив и начинает последовательно сканить страницы, LA тут же начинает расти и сервак загибается.

ссылки на новости такого вида http://site.com/2011/10/10/news/

Allow: /2009/*/*/

Allow: /2010/*/*/

Allow: /2011/*/*/

Allow: /2012/*/*/

Disallow: /2009/

Disallow: /2010/

Disallow: /2011/

Disallow: /2012/

надеюсь правильно?

F
На сайте с 13.11.2009
Offline
269
#4
Mister_Black:

Allow: /2009/*/*/
Allow: /2010/*/*/
Allow: /2011/*/*/
Allow: /2012/*/*/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/

надеюсь правильно?

Вы этим роботсом что хотели сказать то? Запутать мозги роботам? :)

Мне кажется, надо менять сервак, раз он загибается от простого майл-бота, а не закрывать сайт от индексации

T
На сайте с 23.12.2010
Offline
19
#5

<meta name="robots" content="noidex, nofollow"/> добавьте в хедер

для конкретных 4 страниц:

Disallow: /2009/

Disallow: /2010/

Disallow: /2011/

Disallow: /2012/

Z
На сайте с 30.08.2011
Offline
52
#6
foran:
Вы этим роботсом что хотели сказать то? Запутать мозги роботам? :)

Мне кажется, надо менять сервак, раз он загибается от простого майл-бота, а не закрывать сайт от индексации

Allow: /2009/*/*/

Allow: /2010/*/*/

Allow: /2011/*/*/

Allow: /2012/*/*/

Disallow: /2009/$

Disallow: /2010/$

Disallow: /2011/$

Disallow: /2012/$

То что вы сделали это вынос мозга

S
На сайте с 16.01.2012
Offline
55
#7
Mister_Black:
Allow: /2009/*/*/
Allow: /2010/*/*/
Allow: /2011/*/*/
Allow: /2012/*/*/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/

Дело в том, что правило Allow: /2012/*/*/ разрешает индексацию страниц раздела сайт.ру/2012/, имеющих трёхкратную вложенность. Ниже же вы запрещаете к индексации полностью раздел /2012/ - противоречив самому себе. Правило Disallow будет игнорироваться

MB
На сайте с 24.02.2009
Offline
182
#8

я уже понял свою ошибку :) на счёт смены сервера подумаю, страниц действительно очень много, запретил пока ходить ботам по страницам добавив

Disallow: /page/

Disallow: */page/

судя по логу, помогло, теперь индексирует только сами новости.

El_grapaduro
На сайте с 01.09.2008
Offline
315
#9
запретил пока ходить ботам по страницам

Они клали на эти запреты железобетонный болт) Ходить они в любом случае будут, а вот брать документ в индекс или нет - уже подумают.

[Удален]
#10

Mail свое уже прожил, пора на пенсию ему а почтовые акки гуглу отдать.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий