Для Рамблера можно воспользоваться специальной формой.
Весна, обновлять данные в файле xml следует тогда, когда изменяется лента новостей. Я сам делал примерно следующим образом: написал функцию, которая дергает последние 10 новостей из базы и обновляет xml-файл. Вызов данной функции добавил последним пунктом в функции добавления и редактирования новостей.
А можно просто написать скрипт, который сам будет выдавать xml, как на этом форуме, например. ;)
Если робот определяется по User-agent, а не по IP -- сделать запрос нескольких страниц со своего сайта с User-agent Яндекса, Рамблера и т.д.
Еще то ли Yahoo, то ли MSN, не помню точно кто.
Читаем стандарт:
Note that currently only a few robots implement this.
Все основные поддерживают, читайте хелпы поисковиков, там эта информация указана в явном виде.
Спасибо, только ей два года уже.
Процедура удаления у Рамблера запускается в ночь с субботы на воскресенье, соответственно результаты удаления будут видны после выходных.
Я сам перепроверю свою утверждение на этой неделе.
Запретите индексацию страниц, которые необходимо удалить из Рамблера, в robots.txt
Посмотрите что останется в базе после следующих выходных или еще через неделю. ;)
Программно проверять наличие cur=usd и добавлять в код страницы <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Kost,
Можно посоветоветовать logs+grep -- под *nix и бесплатно ;)
В любом формате можно, хоть в маковском. Прекрасно все понимают robots.txt, написанный в блокноте, лишь бы без ошибок. :)