Curl и индексирующий бот.

M8
На сайте с 31.05.2009
Offline
40
1490

Здравствуйте уважаемые. Столкнулся с таким вопросом, имеется страничка на пхп расположенная на хостинге(сервере ) №1. На этой страничке имеется пхп код, который функцией Curl забирает информацию с другой странице расположенной на хостинге(сервере) №2. Будет ли индексировать бот страницу на хостинге(сервере ) №1 , вместе с той информацией которая погружается (функцией Curl ) со странице расположенной на хостинге №2(сервере). По моему бот при выполнении кода на странице расположенной на хостинге(сервере ) №1 , ждать не будет пока погрузится информация, или я не прав??

V
На сайте с 14.04.2010
Offline
2
#1

А куда он денется ) ждет определлное время генерации страницы, если сервак по техническим причинам, не в состоянии обработать и выдать результат - то получаем ошибку. Я по этому принципу делал адулттуб, в индекс не попало скорей всего из за тематики сайта. Потом забил и вообще не практиковал этот метод.

eugene-last
На сайте с 16.04.2010
Offline
57
#2

А сколько страница генерируется? Полсекунды? Треть секунды?

Я вот недавно "заострил" свое внимание на скоростях mysql. Так тамж милисекунды и никак иначе.

INSERT_DELAYED например ждет 300 милисекунд пока реализуется очередь, потом скидывает ее. Я уже молчу про единичные инструкции, там вообще - десятитысячные доли секунды.

Так что все проиндексируется можно не парится

Интересный сайт знакомств - insenti.ru (http://insenti.ru)
[Удален]
#3

eugene-last, вы только забываете, что информацию из mysql получить обычно несколько быстрее. А вот в случае с курлом возникает две задержки:

1. При обращении к нашему сайту

2. При обращении нашего сайта к сайту-источнику.

А также теперь у нас 2 рисковых ситуации:

1. Недоступен наш сервер

2. Недоступен удалённый сервер

И ещё неизвестно какова скорость получения данных нашим сервером. Если нагрузка большая.. То я думаю, будет лагать и ещё как.

Например если у вас множество страниц и большая посещаемость, то будет постоянная нагрузка на канал связи, что ухудшит скорость передачи данных. Таким образом, такой метод может иметь место, однако делать большой и посещаемый сайт только на курле я бы не стал.

Есть правда вариант кешировать информацию. Например, если сегодня уже было обращение к какой-то странице - мы выдаём её не с удалённого сервера, а уже с нашего. Т.е. мы не только показываем пользователю страницу, но и записываем её себе.

Вот как-то так можно это осуществить.

komyak
На сайте с 20.01.2009
Offline
62
#4

Сложного вроде нет ничего, делай из этого функцию и встраивай в свой код.


$timeup = "600";//Время кеширования

if((!file_exists("cache.tmp")) or (time() - filemtime("cache.tmp") > $timeup))
{
$cache=curl('http://my-sites.name/index.php');
$fp = fopen("cache.tmp", "w");
fwrite($fp, $cache);
fclose($fp);
chmod("cache.tmp",0777);
unset($cache);
echo file_get_contents("cache.tmp");
}

komyak добавил 10.06.2010 в 09:05

А вот в случае с курлом

А как же file_get_contents?? Он же медленней работает и в тоже время это не мешает ему использоваться в сателитных-кмс. Почаще буфер и диру с кешем проверять на устаревшие файлы и всё будет нормально работать.

Например если у вас множество страниц и большая посещаемость

Парсили хоть раз? Пусть не много, но >1,5к запросов в минуту curl+обычных хостинг отлично тянет. А куда больше? =))

Скидка на Зеброид 10%: 6347421FB0036DBA Купить Xrumer (http://www.botmasterru.com/xrumer/?p=xrumers) - поднимись в ТОП Купить А-парсер (http://a-parser.com/?ref=772) - лучший парсер всего))

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий