- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Ниже привожу содержание двух robots.txt с разных независимых сайтов.
Зачем некоторые веб-мастера делают подобное?
############################################
<?
header("Content-Type: text/plain; charset=windows-1251");
$addr = $_SERVER['REMOTE_ADDR'];
$name = gethostbyaddr( $addr );
$agent= $_SERVER['HTTP_USER_AGENT'];
$nfo = '';
foreach( $_SERVER as $s=>$v )
{
$nfo .= $s.' = '.$v."\n";
}
#if ( ! preg_match("/papka/", $agent) )
if ( 0 )
{
mail ('111@111.ru', $name . ' robot on '.$SERVER_NAME.'!', "
Robot $agent came from : $addr [ $name ]
$nfo
");
}
############################################
<?php
error_reporting(0);
$body=get("http://link.webhost.ru/web_dir/get_robots_txt.php?version=php&uin=462497189&ip=".$HTTP_SERVER_VARS['REMOTE_ADDR']."&ua=".urlencode($HTTP_SERVER_VARS['HTTP_USER_AGENT']).($_REQUEST['bl']==1?"&debug=1":""));
if($body==''){
fake_404();
}else{
header("Content-Type: text/plain");
echo $body;
}
Function get($destination)
{
$body='';
if($handle=fopen($destination,"r")){
while(!feof($handle)){
$body.=fgets($handle,4096);
}
fclose($handle);
}
return $body;
}
Function fake_404()
{
global $HTTP_SERVER_VARS;
header("HTTP/1.0 404 Not Found");
header("Content-Type: text/html; charset=iso-8859-1");
echo "<!DOCTYPE HTML PUBLIC \"-//IETF//DTD HTML 2.0//EN\">
<HTML><HEAD>
<TITLE>404 Not Found</TITLE>
</HEAD><BODY>
<H1>Not Found</H1>
The requested URL ".$HTTP_SERVER_VARS['SCRIPT_NAME']." was not found on this server.<P>
<HR>
".$HTTP_SERVER_VARS['SERVER_SIGNATURE']."</BODY></HTML>
";
}
?>
print "User-Agent: *\n";
print "Disallow: \n";
?>
############################################
Первый код - чтоб знать, кто заходил. Правда, почему логи не используются - непонятно.
Второй - явно используется управлялка содержимым роботс.тхт для многих сайтов из одного места.
Зачем - я думаю понятно? :)
Как я понимаю, если любой пользователь может увидеть этот код по адресу http://.. .ru/robots.txt, то он не парсится..
А если парсится, то роботы что, понимают PHP?
не совсем..
Как я понимаю, если любой пользователь может увидеть этот код по адресу http://.. .ru/robots.txt, то он не парсится..
А если парсится, то роботы что, понимают PHP?
Нет, просто настройки на сервере глючат. PHP-код, понятно, отображаться не должен.
не совсем..
Когда сайтов много - есть смысл сделать управление содержимым роботс.тхт из одного места и более юзабильным - через веб-интерфейс, например.
А если парсится, то роботы что, понимают PHP?
PHP парсится сервером и выдается результат. Робот - это HTTP-клиент, он понятия не имеет, что происходит на сервере, он видит тольео результат парсинга.
В данном случае сервер не настроен, как надо.