Большинство панелей серверов, дают такую возможность, а если есть ssh, то в mc на сервере можно подключиться к ftp или ssh другого сервера, или консольным браузером типа elinks выкачать ссылку, это если куки нужны. Ну самый простой способ конечно wget ваша_ссылка.
Еще как остается...
Когда злоумышленник желает спарсить сайт, и его интересы направлены на траф с яндекса, это разбирающегося человека остановит, а для гугла все проще...
Обычно эти друзья граберы еще в добавок конвертят cp1251 -> utf8, или наоборот, как раз для гугла, догадайтесь сами почему :).
Если у вашего сайта есть зеркала. Нужно указать главное. В поиске будет участвовать только главное зеркало. Указать его можно при помощи robots.txt, используя директиву 'Host' . Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.
(Типа в документации так написано, мне помогало, думаю также служит отталкивающим эффектом для желающих тырить сайт)
Пример:
#robots.txt выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: ваш-домен.ru
Поставь в robots.txt, тот что по адресу:
http://www.forumklassika.ru/robots.txt
В самый низ:
Host: forumklassika.ru
Директива 'Host' определяет главное зеркало.
Тем самым в поиске будет участвовать только главное зеркало.