bimcom

Рейтинг
170
Регистрация
23.10.2006
mrZer0:
вот "делай что хочешь" - и будет парсером, а приведённый пример - это всего лишь загрузчик :)

Я просто угораю над народом - у каждого слово парсер - свое понимание, и особенно под свои потребности

- одни долбят в репу - вор контента получай

- вторые угорают что это за парсер это не парсер а..... - Да написал я это для примера sokol_jack, -что парсер писать это гением быть ненадо.

sokol_jack:
Ну, если даже referer передавать не надо, UserAgent эмулировать, куки поддерживать то юзайте вобще file_get_contents.

Низя, а если соединение зависнет? - не практично + тежех рефов не подставить и пост не передать.

sokol_jack:

Это наверное про curl_multi? Тогда поддерживаю, жрет совсем ничего.
Только вот из неприятного - запрос на 100 урлов будет выполнятся столько, сколько понадобится для самого медленного урла или таймаута.
Мне это надоело, я и на .net десктопную версию сделал. С пулом потоков, все честно. Сказать, что скорость увеличилась - ничего не сказать :)
Если не ленится и число потоков поставить довольно большим (5-10к), то весь канал забивается :)

Тоже такая фигня надоела - сделал связку связку=сокеты + CURL - сокетами контролирую количество потоков, а курлом выгребаю для моих 20-50 потоков вполне хватает. (ток контролировать нужно аккуратно а то проц на 100% задумывается)

PS.

Хороший у вас канал :) у меня 30 потоков мои 5 Мбит просаживают на 100%

Talamat:
Разные парсеры бывают... ;)

Две недели, не так давно, угрохали на нормальный парсер... Чтоб оперативы не хавал и парсил с нормальной скоростью(около 3-4 тысяч страниц в минуту при расходе 1гиг оперативы сервака)
Пришлось на перле писать, т.к. пхп тут совсем не годится.

Чет памяти дофига жрется :) - у меня на курлах 1000 страниц в минуту (по 15-60кб) жрется всего 68 Мб :)

и нагрузка на ЦП не больше 5%

Talamat:

P.S. В предидущем сообщении парсер будет выводить страницу, а не сохранять в переменную $result Чтоб сохранял надо добавить CURLOPT_RETURNTRANSFER...
P.P.S. Хотя если этот пример назвать парсером, то почему бы тогда не $result = file_get_contents('http://ya.ru/'); 🚬

У каждого парсера - своя цель, а курл я для примера привел.

Хотя та функция меня полностью устраивает - я на локальном компе запускаю парсер статистики лайв интернета (по точкам входа на сайт), но там ограничение по запросам - вот часть запросов через другой сервак и тащу (груба говоря аля прокси на коленке :) - гетом передал в скрипт страничку, а он её вывел)

sokol_jack:
Я возможно ошибаюсь, но люди которые пишут парсер для поисковой системы или системы статистики не будут задавать подобный вопрос на форуме, а спокойно почитают доки. Потому как квалификация достойная. Ошибаюсь?

Ошибаетесь - взять хотябы меня - я далеко не профи в програмирование, даже проще сказать новичек.

PS.

Парсер страничек пишется даже мной за 1 минут максимум.

$url="сайтец";

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url); // set url to post to
curl_setopt($ch, CURLOPT_TIMEOUT, 20); // times out after 20s
$result = curl_exec($ch); // run the whole process
curl_close($ch);

Вот готовый парсер, а дальше делай с полученными данными все что хочешь используя строковые функции - разве необходимо гигантскую квалификацию?

Boris A Dolgov,

Спасиба за наводку!

Опция для CURL CURLOPT_INTERFACE - позволяет менять интерфейсы.

Самый прикол, что на некотрых VPS функция просто не сработала, но не на всех - наверное зависит от особенностей виртуализации!

Boris A Dolgov:
Да.
Для curl тоже есть эти опции, но не помню на них ссылок.

ООО с курлом привычнее :) щас буду искать.

Boris A Dolgov:
Тема много раз поднималась. php.net в помощь.

Щас пришол ответ от хостера - говорит что исходящие соединения с VPS инициируются только с 1го IP адреса.

Через сокеты это ограничение обходится?

После активации акаунта возникли проблемы, связанные с недопониманием дежурных сотрудников и моими интересами, по причине коего акаунт был блокирован, но после объяснения ситуации руководству проблема была решена.

По поводу качества предоставления услуг шаред хостинга - нареканий никаких, один из лучших хостеров (для сайтов Московского региона 100%) с дешевым тарифом.

А с учетом того, что на акаунте за $1.5 можно размещать до 40 сайтов то по соотношению цена/(качество+кол-во доменов) это лучший хостинг, который мной был зарегистрированный за последние 2е суток (в целях личного интереса были зарегистрированный акки до 2$ у 11 хостеров), будет время - оформлю сводную таблицу с проведенным тестированием.

MasterKlass:
супер. а можно обновления в первом посте выкладывать? сложно по всей теме искать последние версии..

MasterKlass добавил 18.12.2008 в 11:45


а если я не помню пароль, а он у меня сохранен просто в браузере?

Я бы с радостью выкладывал изменения в первом посте, но редактировать свой пост можно только в течение 1го часа :( после написания.

А по поводу хеша пароля - как разберусь со всеми дополнительными функциями - может внесу и эту доработку.

PS.

Прокрутите страницу до самого конца и зайдите в раздел

"изменить описание сайта "

и смените там пароль (при смене пароля повторный ввод старого не требуется)

чем словарь синонимов неустраивает?

web_net:
Сайты работают, сейчас больше 50 хостов. Файлы в /tmp есть, но их размер 0 кб - они пусты, при этом ошибки не вылетают.
Скрин:

скорее всего на хостинге не работает curl - т.к. 4 страницы просто нереально загрузить за 0,002 сек, ну и вывод ошибок тоже наверное выключен.

Всего: 795