а как насчет ramblera, который со своим счетчиком сам дергает всё подряд, а особенно страницы с результами поиска и ссылки ещу не нужны.
p.s. был случай - тестировал что-то на странице, делал много рефрешей, на странице был счетчик рамблера - на следующий день - бац страница уже в базе поиска рамблера :(
спасибо!
мне уже статью подкинули, как обычно ловят плохих пауков.
может еще кому будет интересно:
http://www.leekillough.com/robots.html
да вот, видишь самим лень по ипу ходить :)
а как можно спамить тегами h1 и т.п? :D
спамом то это не считается.
ой зря они так делают, я таких баню - кровососов непонятных 😡
конечно пишут, это знаете ли очень удобно и клиентам и дизайн-студиям, предлагаешь дизайн и контент-редактора сразу 😂
очень многие фирмы обращающиеся за дизайном не имеют штатного контент-редактора.
у меня такое чувство, что в ближайшее время яндекс увеличит квоту ;)
ибо сейчас остальные основные поисковики рунета кушают больше чем яндекс ;)
ко мне сегодня пришел Апорт и жреть понимаешь без остановки ;) уже почти 4000 страниц схавал и все ему мало - ест и ест...
🍻
вот у меня примерно так.
$intgmt=<текущая дата документа на свое усмотрение>;
$headers = getallheaders();
$gmt_source=$headers['If-Modified-Since'];
$intgmt_source=strtotime($gmt_source);
if($gmt_source&&!$show_first_page&&$ps_crawler)
//первую страницу всегда переиндексируем!!!, чтоб забирал новые линки
{
//здесь можно писать лог
//
if($intgmt<=$intgmt_source)
//тут тоже
header("HTTP/1.0 304 Not Modified");
exit;
}
header("Expires: 0");
header("Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0");
header("Pragma: no-cache");
header("Last-Modified: $gmt");//$gmt преобразованый в gmt $intgmt
header("Content-Type: text/html; charset=windows-1251");
ух - ну спасибо!, успокоили мою душеньку ;))
пойду выпью пивка ;)
так у меня вообще страниц нет теперь на Апорте.
по запросу url=<сайт> теперь нифугилички нет :(((
спасибо за мыло.