Cherny

Рейтинг
120
Регистрация
19.09.2001

Для Рамблера можно воспользоваться специальной формой.

Весна, обновлять данные в файле xml следует тогда, когда изменяется лента новостей. Я сам делал примерно следующим образом: написал функцию, которая дергает последние 10 новостей из базы и обновляет xml-файл. Вызов данной функции добавил последним пунктом в функции добавления и редактирования новостей.

А можно просто написать скрипт, который сам будет выдавать xml, как на этом форуме, например. ;)

Если робот определяется по User-agent, а не по IP -- сделать запрос нескольких страниц со своего сайта с User-agent Яндекса, Рамблера и т.д.

Только не понятно, все ли боты понимают регулярки или только гугл?

Еще то ли Yahoo, то ли MSN, не помню точно кто.

Эта запись приравниваеться robots.txt или некоторые боты ее игнорируют?

Читаем стандарт:

Note that currently only a few robots implement this.

Все основные поддерживают, читайте хелпы поисковиков, там эта информация указана в явном виде.

Cherny, Статья хорошая, молоток!

Спасибо, только ей два года уже.

Сегодня ночью заходил робот. Посмотрим, как быстро будет реакция...

Процедура удаления у Рамблера запускается в ночь с субботы на воскресенье, соответственно результаты удаления будут видны после выходных.

Я сам перепроверю свою утверждение на этой неделе.

Запретите индексацию страниц, которые необходимо удалить из Рамблера, в robots.txt

Посмотрите что останется в базе после следующих выходных или еще через неделю. ;)

Программно проверять наличие cur=usd и добавлять в код страницы <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Kost,

Как писал Sherman
p.s. программа нужна бесплатная и под *nix.

Можно посоветоветовать logs+grep -- под *nix и бесплатно ;)

Файл Роботс надо писать в расширении UNIX

В любом формате можно, хоть в маковском. Прекрасно все понимают robots.txt, написанный в блокноте, лишь бы без ошибок. :)

Всего: 1011