Насколько долго это выполняется

I

20

isoft

19 июня 2009, 04:29

881

Уважаемые опытные программеры!

Вопрос следующий.

У меня есть база URL, без title.

Нужно получить title для каждого URL и выводить их на сайте.

Написал код:


$file = file_get_contents("http://site.ru");

preg_match("#<title>(.*?)</title>#is", $file, $title);

echo $title[1];

Это для одного url, естественно чтобы получить список сделаю массив URL и цикл. Насколько быстро он будет получать заголовки. Сильно тормознет? Если массив из 100 допустим будет.

[Удален]

19 июня 2009, 04:39

#1

зависеть тут будет не от размера массива, а от скорости соединения вашего сервера с интернетом + скорости генерации страниц движками которые вы будете "парсить" ... а не то что 100 элементов в массиве будет :-D

I

20

isoft

19 июня 2009, 04:41

#2

Об этом я примерно догадывался. Но решение можно применить? Или кто-нибудь применял подобного рода?

[Удален]

19 июня 2009, 04:50

#3

isoft:
Об этом я примерно догадывался. Но решение можно применить? Или кто-нибудь применял подобного рода?

а вы решение предлагали?

I

20

isoft

19 июня 2009, 04:57

#4

В принципе думаю обойти эту задачу. Заносить в базу УРЛ. И если у УРЛ нет заголовка, то считывать его. Думаю это скорость увеличит в дальнейшем.

[Удален]

19 июня 2009, 04:59

#5

isoft:
В принципе думаю обойти эту задачу. Заносить в базу УРЛ. И если у УРЛ нет заголовка, то считывать его. Думаю это скорость увеличит в дальнейшем.

если база статична то да :)

389

seosniks

19 июня 2009, 05:05

#6

isoft:
Уважаемые опытные программеры!
Вопрос следующий.
У меня есть база URL, без title.
Нужно получить title для каждого URL и выводить их на сайте.

Написал код:


$file = file_get_contents("http://site.ru");

preg_match("#<title>(.*?)</title>#is", $file, $title);

echo $title[1];

Это для одного url, естественно чтобы получить список сделаю массив URL и цикл. Насколько быстро он будет получать заголовки. Сильно тормознет? Если массив из 100 допустим будет.

Здесь выложил код /ru/forum/comment/5041862

Сделайте его для себя как вам надобно.

I

20

isoft

19 июня 2009, 05:22

#7

Спасибо, про кодировку я как-то и не подумал.

Еще хотел спросить. А если допустим сайт не доступен. Или домен уже не существует. Насколько долго он конектится?

389

seosniks

19 июня 2009, 06:05

#8

isoft:
Спасибо, про кодировку я как-то и не подумал.

Еще хотел спросить. А если допустим сайт не доступен. Или домен уже не существует. Насколько долго он конектится?

Делайте проверку на ответ сервера

curl как мне кажется очень удобно юзать в этом случае.

К стати там же выложен скрипт проверки фреймов его можете применить для себя.

там скрипт лезет на сайт ищет фреймы и выводит в браузер.

Достаточно заменить в нем регулярку на ту что в послежнем моем скрипте

и будет работать. Только про лучше сделать через курл.

Если сайт будет не доступен или его не будет существовать то скрипты выдаст ошибку..

Подавить ошибку можно так

в скрипт в после <?php

вставить строку

error_reporting(0);

389

seosniks

19 июня 2009, 06:05

#9

up

потерто

[Удален]

19 июня 2009, 07:25

#10

В данном случае можно немного сэкономить на времени выполнения, если сайты которые вы парсите делал не маньяк какой нибудь. Титл обычно содержится в первом килобайте кода, поэтому можно не целиком страницу грузить а нужное количество байт через fopen/fgetc

Если предположить что сайты делал нормальный человек, то можно вообще строками тягать пока не встретится титл. Время ожидания ответа от сервера это не поможет сократить, зато объем передаваемых данных может заметно уменьшиться.

Единственное, что в этом случае вас ограничивает, - это max_execution_time пыхи. Можно тягать порциями с обратным вызовом через аякс/auto-refresh

Хотя вообще все это можно сделать на яваскрипте (если работа разовая). Грузить нужный документ во фрейм и оттуда тягать титл через DOM

neolord добавил 19.06.2009 в 11:27

isoft:
Спасибо, про кодировку я как-то и не подумал.

Еще хотел спросить. А если допустим сайт не доступен. Или домен уже не существует. Насколько долго он конектится?

Если вы будете пользоваться curl, там можно задать время ожидания.

Если стандартные функции работы с файлами, то выбирается наименьшая из соответствующих настроек php/apache.

Можно для начала проверять доступность сайта например через get_headers, но тогда затраты на ожидание ответа удваиваются

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что такое Power BI и зачем это нужно бизнесу