Для Teleport и wget это действительно в некоторых случаях поможет.
Хотя, у меня по умолчанию даже Teleport Pro (1.29.1951) прикидывается IE 5.0
Многие из программ скачки сайтов файл robots.txt не учитывают совсем и не собираются это делать.
Так что от плагиата данный метод не поможет совсем.
А самую малось трафик урезать можно...
Постоянно наблюдаю такие ссылающие странички (ссылок на меня нет, редиректов нет). Вот только их не очень много: от силы 2-3%.
Один Бот знает, что на них было в момент, когда он их посещал.
Каширин,
Вообще на XML действительно более универсально получается. Правда, по началу у меня большие сомнения были, что выдача по XML и как обычно всегда совпадает.
Для домашних нужд да, но там и такой поток запросов не понадобится.
А для веб-сервера иметь динамический айпи проблематично.
У поискового робота к сожалению глаз нету, чтобы наслаждаться красотой кода.
Проверяйте лучше код на соответствие стандартам у первоисточника:
HTML Validator
Работает только не всегда - перегружен бедняга.
Пробегал тут недавно пример в форуме: сайт отображается в броузерах нормально, а в техподдержке Яндекса сообщают, что робот видит пустую главную страничку.
Vyacheslav Tikhonov,
Ага, я до этого не додумался.
Вот только найти быстрый и при этом стабильный анонимный проксик - проблема.
Тогда я сделал скрипт-прокладку, равномерно раскидывающий запросы на несколько серверов (с разными IP) с тем же первоначальным скриптом. И переписывать практически ничего не пришлось.
"Лень - двигатель человека"
euhenio,
В конце прошлого года. Незадого до этого помню Я поголовно начал сканирование Инета.
Всего сколько запросов было не знаю - я примерно потом по трафику просчитал что не менее 200 за последний час до отключки. Запросы шли в течении двух дней. Не равномерно, но совершенно точно возрастая в количестве.
Не знаю как сейчас - может и прощают всех подряд налево и направо.
Но вот тогда писал (и не одно) слезные послания с извинениями. В итоге оказалось проще и быстрее IP поменять.
denis1981,
Если заявка платная - никаких проблем. При действительно положительных изменениях на сайте внесение вполне возможно.
Менял HTTP_USER_AGENT случайно - один из четырех (Мозилки всякие стандартные :)
Думаю, Я среагировал именно на большой поток за ед.времени.
Подделать можно почти любой хидер (IP - отдельный разговор) - и в Я это отлично знают.
Толик,
регулярные выражения в Perl и PHP отлично справляются с данной задачей
Было дело - раз перебрал. Забанили на отметке более 200 запросов в час (точнее не знаю - статистики не вел). Потом из-за собственного баловства менял IP-ик у сервера.