Переплюнуть Google

So1 · 2008-11-11T01:35:31.0000000Z

Написал я класс для чтения RSS. Пример использования: $feeds = array(" http://www.interblog.net.ru/feed/ ", " http://cyber.law.harvard.edu/rss/examples/sampleRss092.xml ", " http://www.seoskazki.ru/cache/rss_news.xml ", " http://sanuin.blogspot.com/feeds/posts/default ", " http://www.cv-go.net/cvgo/ArticlesRSS.ashx ", " http://www.vacansia.ru/export/vacrss.php ", " http://staff-ua.com/worker/rubric.php?id=7&amp ;vtd=rss2", " http://www.zprabota.org.ua/rss.xml ", " http://jobit.ru/modules/rss_vac.php "); $rss_feeds = new rss ($feeds); $rss_feeds->debug = true; $rss_feeds->parse(); $rss_feeds->show_dump(); Этот пример можно посмотреть сейчас на fasion25.ru. Внизу - количество секунд на загрузку документа. Сама по себе обработка занимает порядка 8 секунд (чуть меньше секунды на один rss-фид), сейчас там еще идет вывод дебаговой информации (по сути PHP-форматированный код). Загрузил все эти RSS-фиды в гугл-ридер и очень удивился скорости загрузки ... Почему сделано массивом? Очевидно - для сортировки по дате (пользователю интересней самые последние новости). Предзагрузка на google reader занимает примерно 4 сек (у меня к сожалению нету возможности встроить в google reader счетчик для предоставления более точных данных :) ). Возможно, что на гугл ридере сделано следующим образом - сначала данные парсятся, далее, после загрузки страницы, данные вынимаются при помощи AJAX. Мой скрипт парсит данные примерно 8 секунд и примерно 10-15 секунд (у меня, например) тратится на загрузку самой страницы (ЭТО СЛИШКОМ МНОГО!). Если выключить функции cURL для определения есть ли редирект (например на некоторых блогах я нашел редирект), то сэкономится примерно 1-2 секунды. Парсинг происходит при помощи SimpleXML, но функционал еще не дописан немного, т.е. по идее, время на парсинг должно будет увеличиться еще втишь... Хотя, если использовать PEAR::RSS, будет гораздо хуже (тупой класс, если честно)... Может быть парсить "вручную"? Т.е. при помощи cURL получать весь контент и парсить как строку, не прибегая к использованию классов типа SimpleXML, DOMDocument, XML Parser (PEAR::RSS вообще отдельная статья - полил бы бензином и сжег эту гадость)... Какие идеи? ) Вопрос второй: если все результаты хранить в сессии, - сессия не треснет? ( см дамп ) )) Хранить всё это дело в БД не выгодно... А так - запарсил данные, запихнул в сессию, выдал юзеру страницу, передал количество резульатов, которое должно быть на странице... далее JS: пока (все записи не показаны) достаем при помощи AJAX из сессии очередную запись и показываем юзеру - пока он первые новости читает - подгрузятся все остальные... Есть еще один вариант - показывать юзеру страницу, показывать его подписки, а тем временем, пока юзер думает, что ему делать, парсить данные втихушку :) Тогда нам пригодится таймер (setInterval), чтобы постоянно спрашивать серверный скрипт "уже готово?", когда он ответит "ага, забирайте!" - показывать данные... Идеи/предложения/критика?...

O

43

ossadchy

11 ноября 2008, 16:11

#21

1. Сессия не треснет, но это моветон.

2. А какая связь массива и сортировки по дате -- в массиве ведь RSSки.

3. По скорости -- запускается скрипт локально или на сервере?

P.S. кешируйте данные.

P.S.P.S. Намного быстрей "в ручную" нежели simplexml или domxml не будет -- т.к. эти расширения написаны на C...

Ну и многопоточность... это есть основной +(если не плюсище) в сторону JAVA|PERL|C.

ossadchy добавил 11.11.2008 в 19:15

T.R.O.N:

Т.е. бинарник(ведь он всегда быстрее работает, да и запушен не под web-сервером, что еще увеличивает скорость)

у веб-сервера процессор другой или канал уже? :)

Сети сателлитов под заказ, дешево! (/ru/forum/524120) Регистрация .net.ru, .org.ru, .pp.ru (/ru/forum/509845) Магазин готовых сайтов в индексе (/ru/forum/545427)

S

35

Secret

11 ноября 2008, 16:20

#22

Качать фиды нужно параллельно. А примерный парсинг вот.

// парсим rss

$needtags=array('title','link','description','pubdate');

$img='/<item>(.*?)<\/item>/ims';

preg_match_all($img,$str,$temp);

$itm=$temp[1];

$items=array();

foreach($itm as $k=>$v) {

$items[$k]=array();

$img='/<([^>]+)>(?:\<!\[CDATA\[)?(.*?)(?:]]>)?<\/\1>/ims';

preg_match_all($img,$v,$regs,PREG_SET_ORDER);

foreach($regs as $v2) {

$v2[1]=strtolower($v2[1]);

if ('category'!=$v2[1]) {

$items[$k][$v2[1]]=$v2[2];

} else {

if (!isset($items[$k][$v2[1]])) $items[$k][$v2[1]]=array();

$items[$k][$v2[1]][]=$v2[2];

}

for ($q=0;$q<count($needtags);$q++)

if(!array_key_exists($needtags[$q],$items[$k])) {

unset($items[$k]);

break;

}

if (!isset($items[$k]['category'])) $items[$k]['category']=array();

}

Ищу работу. php+symfony+jquery.

[Удален]

11 ноября 2008, 20:25

#23

ossadchy:
2. А какая связь массива и сортировки по дате -- в массиве ведь RSSки.

В массиве simple_xml - объекты SimpleXML (это не полный дамп сейчас там выдается, - я "шелуху" поотрубал), есть другой массив (он в коде на fasion25 сейчас закомменчен) - там результаты парсинга всех фидов (данные о канале и итемах + дата, по которой происходит сортировка штатной функцией)

ossadchy:
3. По скорости -- запускается скрипт локально или на сервере?
P.S. кешируйте данные.

На сервере - локально куда дольше получается.

Данные будут кешироваться - без этого, конечно, никак. Сейчас не цель сделать последующую обработку быстрее, - сейчас цель сделать первичную в разы быстрей (Вы будете ждать пол минуты на загрузку, когда на Гугл.Ридере всё грузится 4 сек., даже если потом будет всё моментально загружаться?), это просто приоритетная задача, которую нужно решать прямо сейчас.

ossadchy:
Ну и многопоточность... это есть основной +(если не плюсище) в сторону JAVA|PERL|C.

Сейчас человек один хороший подсказал использовать многопоточность cURL (в конце-концов скорее-всего она именно для подобных случаев и была реализована) - я буду пробовать разные варианты - какой вариант окажется наиболее "шустрым", - тот и будет в финальной реализации, хотя изначально я не буду ломать мозг и сделаю наиболее эффективным и простым способом, - потом всё остальное - я пока что сконцентрирован на цели получить наиболее хороший результат и остановиться на нем или же отказаться от идеи создания этого сервиса. При том я пока что проверил только на 1, 4 и 9 фидах и уже результаты неудовлетворительные, приемлемым будет результат менее 6 секунд на загрузку примерно 20-30 фидов (не проводил социальных исследований, но думаю, что среднестатистический пользователь интернета врядли читает больше лент постоянно).

S

35

Secret

11 ноября 2008, 23:05

#24

При том я пока что проверил только на 1, 4 и 9 фидах и уже результаты неудовлетворительные

Если качать multi_curl-ом, то время загрузки 1 и 1000 фидов будут примерно одинаковы.

Прогнал мой вышеприведённый код по случайному фиду (20 постов) в цикле на 1000 интераций 8-9 секунд выходит (на сто интераций - 0.9 сек). Так что

результат менее 6 секунд на загрузку примерно 20-30 фидов

более чем достижим. И упираться всё будет во время скачки самого медленного фида, а не в скорость парсинга (про неё см чуть выше). А уж время работы php+apache+mysql в данном случае настолько мизерно, что рассуждения php vs perl vs си и файлы vs mysql выглядят достаточно глупо.

Возьмите файл метров 10 (в котором ну например по 1000 байт запись) и таблицу из 1000 записей.

Опустим обычную газету в соляную кислоту, а журнал тетрапак - в дистиллированую воду.

(10М\1000 = 10485. )

314

T.R.O.N

12 ноября 2008, 06:59

#25

ossadchy:
у веб-сервера процессор другой или канал уже?

а для Вас новинка, что из-под него идет выполнеие иначе?

neolord:
Неужели вы настолько хороший прогер, что единолично переплюнули все архиэпическую команду разработчиков MySQL и его 20 летнюю историю?

Вы слушаете только то, что хотите услышать. Я утверждал что есть задачи, где монстр типа SQL сервера нужен и оправдан. Решение без него - затруднительны. В приведенном примере, в большинстве веб-приложений и CMS использвать базы не удобно и ведет к очень серьезным "тормозам".

Решения, с использованием mySQL, входят в любой учебник по пхп. При этом, они рассмотрены как примеры, а не как готовые интересные решения. Вот их и юзают все кому не лень.

Любое универсальное/стандатроное решение (тот же SQL) все проигрывает перед ускоспециализированным. Еще раз повторюсь, и для него есть задачи, но обсуждаемые здесь к ним не относятся

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы