Парсил сайт - забанили IP - купил ещё 1н - не работает

1 234
K
На сайте с 12.07.2006
Offline
295
Kpd
#31
bimcom:
Поверьте - те кто занимался граббингом - в первую очередь заинтересованны тобы ваш сайт не завалить

Наивный вы человек. Воровством контента в первую очередь занимаются школьники, потому что ничего больше не умеют. Со всеми вытекающими последствиями.

Хотя если владелец сайта не озаботился об элементарной защите, то сам виноват

B
На сайте с 03.02.2005
Offline
165
#32
sokol_jack:

А чего надеятся? Просто юзать что-то "более другое", чем php ;)

Проблемы не в пхп, а в голове. Если многопоточность не работает в пхп, она не будет работать нигде. Если конечно нет ещё специального языка для парсеров и ботнетов, такого же простого и заточеного как, напрмиер, пхп3 для говносайтов.

А на пхп5 (на никс-системах) можно без проблем делать многопоточные вещи.

betam добавил 20.03.2009 в 12:48

Kpd:
Наивный вы человек. Воровством контента в первую очередь занимаются школьники, потому что ничего больше не умеют. Со всеми вытекающими последствиями.
Хотя если владелец сайта не озаботился об элементарной защите, то сам виноват

У школьников нет серванта и канала чтоб в 1000 потоков чтото парсить. Да школьнику на пхп ничего на пхп в 1000 потоков не написать.. и даже не запустить.

Интеграция сайтов с 1С (товары, контрагенты, документы, заказы). Консультации и услуги. Есть готовые решения - быстро и недорого. Приглашаю к сотрудничеству агентства и веб-студии.
B
На сайте с 23.10.2006
Offline
170
#33
Unlock:
bimcom, по граббингу. Делайте это так, чтобы не напрягать владельца ресурса. Это все о чем я хотел сказать. Всегда можно определить максимальный поток который держит сайт и начать фигачить чтобы быстрее собрать данные. А можно быть чуть скромнее и не нагружать по максимому сайт.
По поводу оригинала, не понял. Я и говорил про оригинал, а не клоны, которые тупо спарсены и выложены в том же виде.

Совершенно согласен, но мне не приятно что народ то этого не понимает - большинству кажется что я сейчас в 1000 потоков пойду их сайт бомбить.

Кстати - если ваш сай кто-то так бомбит - не поленитесь - напишите хостеру (или в ДЦ где хостится IP с которого бомбят) что на вас устраивают ДОС с их площадки - этого парсера сразу выкинут, ну или он перестанет вас бомбить (ссылайтесь на то что запросы этого IP перегружают ваш сервер и мешают стабильной работе)

K
На сайте с 12.07.2006
Offline
295
Kpd
#34
betam:
А на пхп5 (на никс-системах) можно без проблем делать многопоточные вещи.

Если есть голова, то многопоточность можно реализовать и в php4 и под виндой

Kpd добавил 20.03.2009 в 12:59

betam:
У школьников нет серванта и канала чтоб в 1000 потоков чтото парсить. Да школьнику на пхп ничего на пхп в 1000 потоков не написать.. и даже не запустить.

У московских школьников есть мегабитный интернет, а программ-грабельщиков даже с GUI тьма. Буквально сегодня на одном сайте какой-то **** хотел за 15 минут 10к страниц выкачать. Правда, защита сработала и после 100-й страницы он увидит философский посыл.

B
На сайте с 03.02.2005
Offline
165
#35
Kpd:
Если есть голова, то многопоточность можно реализовать и в php4 и под виндой

Никсы дают чуть больше возможностей без установки доп софта.

Kpd:

Kpd добавил 20.03.2009 в 12:59

У московских школьников есть мегабитный интернет, а программ-грабельщиков даже с GUI тьма. Буквально сегодня на одном сайте какой-то **** хотел за 15 минут 10к страниц выкачать. Правда, защита сработала и после 100-й страницы он увидит философский посыл.

Поставить ограничение на 10/20/50 одновременных коннектов с одного ИПа на уровне веб сервера и пускай идут лесом. А если подделаться под браузер и human-like просмотр сайта, вооружившись парой тысяч проксиков из региона сайта и сочувствующих регионов - то никто никогда ничего не сможет залочить. С этим пока не справились даже такие монстры как гмайл дот ком и блоггер. Но на такой парсинг нужно бабло и/или опыт и/или знание тем. Школьники не катят. Хотя, вполне возможно есть и готовые фришные проги для этого от журналов типа хацкер...

RAS
На сайте с 27.11.2005
Offline
126
RAS
#36
bimcom:


Как зашедший в эту тему администратор серверов - лучшеб сказали че полезное - например можно ли уменьшить объем потребляемой памяти httpd процессом, а то щас каждый поток потребляет 5904 Кб, а хотелось бы меньше.

Да, пожалуйста, никто же прямо не спрашивает. Пишите в ПМ.

Администрируем сервера, впс, вдс. Ускоряем загрузку сайтов - DLE, Word Press, Joomla, Modx... Настраиваем безопасность. Ручная чистка rootkit/malware/вирусов. (/ru/forum/867860) Разработка - shell/bash/sh/python/perl.
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий