Для начала можно посмотреть списки http://www.seoman.ru/FAQ/article032.html и http://bot.tixit.ru/user_agent/
Есть аргументы за то, чтобы сделать "белый список" для IP, а не для USER_AGENT, т.к. если DDOS'ят Вас целенаправленно, то и USER_AGENT подберут такой, чтобы продолжить заваливать. Поэтому лучше создавать список белых-IP, для которых не нужен ввод кода проверки - так оно надёжнее в смысле безопасности.
С другой стороны, не все IP поисковых роботов известны заранее (в сети можно найти немаленькие списки, но без гарантий :) ), поэтому так можно случайно и "честного бота" не пустить, борясь с атакой, что может привести к выпадению части страниц из индексов поисковых машин.
Удачи Вам в решении этой проблемы!
Среди пяти случайно взятых ip-адресов из списка я не опознал поисковых ботов.
Больше похоже на кучу заражённых каким-нибудь вирусом зомби-машин. Да и размазанная география этих айпишников наводит на такую мысль.
Почему Вы вообще считаете, что это поисковики?
для лечения этого есть следующи подход:
1. Заменить все "<" на "<"
2. Заменить все ">" на ">"
Тогда html-код будет выглядить как надо, тэги обрабатываться не будут.
Посмотрите исходники любого мануала по html - там так и делают:
http://www.w3.org/TR/html4/struct/global.html#h-7.4.2
Надо правильно указывать заголовок Content-type.
Посмотрите, какой заголовок ставит Ваш скрипт. Скорее всего, text/html, а надо text/plain, чтобы почтовый клиент воспринял его именно как текст.
1. Мне всегда всё делали быстро, поэтому притензий не имею. Кто-то из знакомых говорил, что иногда тормозят сутки на ровном месте, но я надеюсь, что это редкая случайность.
2. Какой домен основной можно прописать в .htaccess, хостингу это не важно.
Гарантировать, думаю, тут никто не возьмётся. Но думать надо примерно в следующую сторону: хорошая продажная морда не имеет подвала из ссылок. На хорошей продажной морде в нескольких местах есть органично встроенные блоки:
"Партнёры" (и там реально 3-5ссылок похожих на ссылки на партнёров),
"Это интересно" (и на самом деле серия интересных неожиданных ссылок),
"Полезная информация" (а там и впрямь полезная информация),
"Свежие данные" (а там ссылки на какие-то новые материалы)
и т.д. набор может варьироваться. Важно, что они там к месту.
Смысл в том, что иногда смотришь на такую морду и не можешь вспомнить, сами они ссылку поставили или всё же купил у них :) Потому что уж больно естественно это всё смотрится. Прямо так и кажется, что ребята вложили душу в сайт, чтобы посетителю было удобно, полезно и интересно. И у модератора должно быть такое ощущение. Увы, таких морд не много.
Кстати, почитайте /ru/forum/89512 - там было на эту тему.
Похоже, не такой полезный совет :( Уж очень легко догадаться, какой адрес у Вашего сайта... всякое бывает.
Повезло :) Поздравляю!
Как минимум, не надо светить этот сайт в контексте такого вопроса.
Сотрудники поисковых машин тоже читают этот форум. Вы или сами на себя только что стукнули или кого-то другого подставляете. Меняйте подпись!
Да, бесплатные прокси - это часть решения. Их легко найти введя такой запрос в любой поисковик :)
Кроме того, что можно выбирать дата-центр, к которому обращаетесь (указывая его явно), можно запросить ответ под указанный Вами язык. Сравните:
http://www.google.com/search?hl=ru&q=SEO
http://www.google.com/search?hl=en&q=SEO
http://www.google.ru/search?hl=ru&q=SEO
Не считая того, что иногда некорректный html может приводить к неправильной оценке поисковиком наполнения страницы. Например, не закрыв тэг заголовка, можно случайно сделать заголовком страницы всё её содержимое. И за это получить не совсем такой учёт весов слов, как хотелось. Вообще, незакрытые тэги, как правило, могут быть поняты неоднозначно, из-за чего сработают неожиданно (не говоря уже о разном отображении в разных браузерах). Поэтому такие вещи стоит исправлять сразу.
например, таким незатейливым образом можно делать 404-ые страницы: http://www.acatel.ru/somepage.html :)