sokol_jack

Рейтинг
78
Регистрация
16.03.2008
bimcom:
Ошибаетесь - взять хотябы меня - я далеко не профи в програмирование, даже проще сказать новичек.
PS.
Парсер страничек пишется даже мной за 1 минут максимум.
$url="сайтец";

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url); // set url to post to
curl_setopt($ch, CURLOPT_TIMEOUT, 20); // times out after 20s
$result = curl_exec($ch); // run the whole process
curl_close($ch);

Вот готовый парсер, а дальше делай с полученными данными все что хочешь используя строковые функции - разве необходимо гигантскую квалификацию?

Ну, если даже referer передавать не надо, UserAgent эмулировать, куки поддерживать то юзайте вобще file_get_contents.

Только то, что вы написали - это еще совсем не парсер :)

sokol_jack добавил 19.03.2009 в 11:42

bimcom:
Чет памяти дофига жрется :) - у меня на курлах 1000 страниц в минуту (по 15-60кб) жрется всего 68 Мб :)
и нагрузка на ЦП не больше 5%

Это наверное про curl_multi? Тогда поддерживаю, жрет совсем ничего.

Только вот из неприятного - запрос на 100 урлов будет выполнятся столько, сколько понадобится для самого медленного урла или таймаута.

Мне это надоело, я и на .net десктопную версию сделал. С пулом потоков, все честно. Сказать, что скорость увеличилась - ничего не сказать :)

Если не ленится и число потоков поставить довольно большим (5-10к), то весь канал забивается :)

bimcom:
Для борцов за запрет ворвства контента сообщаю что парсеры пишут нетолько для того чтобы тырить ваш говноконтент (за тырение которого вы даже банить роботов не умеете) но ещё и поисковые системы, и системы статистики, да мало чего можно напарсить ещё.

Я возможно ошибаюсь, но люди которые пишут парсер для поисковой системы или системы статистики не будут задавать подобный вопрос на форуме, а спокойно почитают доки. Потому как квалификация достойная. Ошибаюсь?

Forza!:
Просматривая топовые сайты на Google, обнаружил, что множество этих самых высокоранжируемых сайтов написаны на ASP.NET. Погуглив немного, нашел инфу, прравда не с официальных источников (выкладывать ссылки не буду) что действительно, алгоритмы Гугла "умеют" определять, что сай написан на ASP, и дают некое преимущество таким сайтам, так как сама технология создания сайта на ASP на порядок дороже обычных сайтов, и по определению, на ASP говносайты не создают🙅 Кто сталкивался с подобными наблюдениями?

😂

Да поймите вы наконец, что ПС работают с HTML, который отдается на клиента. И им абсолютно пофигу, что там на сервере крутится.

Ну, а с "определением, на чем написан сайт" - это уже вобще :D

Достаточно пары строк, и сайт уже на php\asp.net\asp(vbscript, наверное, да?)\java...

Советуют уникализировать код шаблона (html+css), а не код движка. Кодом движка только вы да сервер наслаждаться сможете. Ну, или хакер залетный, если вы криво "уникализируете код" :))

AlexThunder:
А из Украины здесь только философ - просто он один знает о существовании этой сказочной страны. 😂

Не один. Я конечно поспокойнее filosof буду ;), но... 🙄

di_max:
Cache-Control: max-age=600, private

Cache-Control: private, max-age=3600

Да, раньше видать яшке полегче-то было :)

Плагин "Flexible Upload" решит все ваши сложности :)

e16r:
Вопрос: есть текст в формате дат, как его можно привести к читабельному варианту?

Поиграю в телепата. Есть winmail.dat, и вам дорого его содержимое?

http://www.eolsoft.com/freeware/winmail_opener/

WPT, причем тут на форуме даже разработчики есть.

BoyStav:
не любой PHP кешер решает проблему постоянной интерпретации, насчет компиляции это да, АСП.НЕТ компилиться раз. Но и байткод PHP достаточно быстр.

Спору нет :)

У самого где надо eAccelerator включен :)

Насчет фреймвока, так есть zend framework, посмотрите на досуге, продукт достойный.

Это вы таки точно мне? ;)

MSSql будет быстрее только на действительно сложных запросах.

Именно это и я писал. 🍻

То, что "продвинутые" возможности у MSSQL намного выше - это понятно, только вот как много людей юзают тот же OLAP?

Всего: 1527