Парсил сайт - забанили IP - купил ещё 1н - не работает

1 234
Analitic82
На сайте с 17.01.2009
Offline
70
#21

Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят (по другому не назвать), люди из-за этого попадают в деньги(настройка и оптимизация сервера, защита от сCURLвившихся самоучек). Затирать тут про якобы поисковые системы не нужно, User-agentа тогда не нужно выдумывать, чтобы не забанили, у Вас ума не хватает на собственный материал, уникальный? Темы в разделе Yandex сейчас пестрят о дубликатах сайтов, ворованном контенте. В этой теме я, например, не вижу, о каком администрировании говорят, похоже Ваша тема в этом разделе.

RAS
На сайте с 27.11.2005
Offline
126
RAS
#22

что-то массова стала бизнес-модель ПП (попарсить-п........) :), уже даже нашел московскую контору по администрированию, которая у нас уперла текст сайта....

Администрируем сервера, впс, вдс. Ускоряем загрузку сайтов - DLE, Word Press, Joomla, Modx... Настраиваем безопасность. Ручная чистка rootkit/malware/вирусов. (/ru/forum/867860) Разработка - shell/bash/sh/python/perl.
Unlock
На сайте с 01.08.2004
Offline
738
#23
Analitic82:
Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят (по другому не назвать)

Кстати верное замечание. Имейте совесть. Ну парсите, но блин, зачем еще и сервак класть?

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.
B
На сайте с 23.10.2006
Offline
170
#24
Inoteol:
bimcom, проще всего взять ещё один дешёвый хостинг на другой домен. Там создать скрипт (к примеру get.php) со следующем содержанием:
echo implode("",file($_GET['url']));

После заменить в парсере "адрес_откуда_парсим" на "адрес_другого_хостинга/get.php?url=адрес_откуда_парсим".
Даже если сайт пока небанили, разумнее парсить с другого IP.

Я тоже так думал, но чет виртуальный хостинг за трафик сильно переживает + постоянное перерасход ресурсов - в объщем VPS дешевле и выгоднее. + В вашем примере нет учета таймаута - что не есть хорошо.

Analitic82:
Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят
Unlock:
Кстати верное замечание. Имейте совесть. Ну парсите, но блин, зачем еще и сервак класть?

Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.

А вот в 10 - 100 - 1000 потоков парсится выдача яндекса, вордстат, статистика рамблера - т.к. тут уже количество материала измеряется десятками миллионов страниц и если тащить с 1го IP то пару лет можно прождать. Такчто будьте спакойны за свои сервера и молитесь чтобы их боты яндекса и гугла с рамблером не завалили.

RAS:
что-то массова стала бизнес-модель ПП (попарсить-п........) , уже даже нашел московскую контору по администрированию, которая у нас уперла текст сайта....

Как зашедший в эту тему администратор серверов - лучшеб сказали че полезное - например можно ли уменьшить объем потребляемой памяти httpd процессом, а то щас каждый поток потребляет 5904 Кб, а хотелось бы меньше.

PS.

Analitic82:
В этой теме я, например, не вижу, о каком администрировании говорят, похоже Ваша тема в этом разделе.

Для дорвеев контент вааааще не нужен ;)

[Удален]
#25
bimcom:
Попробуйте без мультикурла - просто на курле, но дергать этот скрипт через кучу сокетов - аля многопоточность получается.

Это, как мне кажется, совсем извращение... :)

ЗЫ. Спасибо всем "доброжелателям" за минусы в репу... :) Не думал, что будет такая реакция... парсим мы вообще то не сайты пользователей, а поисковые системы для анализа ссылок, позиций, конкуренции... как на этом форуме делает большинство СЕО-шных фирм! ☝

B
На сайте с 23.10.2006
Offline
170
#26
Talamat:
Это, как мне кажется, совсем извращение... :)

Там где многопоточности нет - приходится её придумывать :( Надеюсь скоро это изменится.

SJ
На сайте с 16.03.2008
Offline
78
#27
bimcom:
Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.
А вот в 10 - 100 - 1000 потоков парсится выдача яндекса, вордстат, статистика рамблера - т.к. тут уже количество материала измеряется десятками миллионов страниц и если тащить с 1го IP то пару лет можно прождать. Такчто будьте спакойны за свои сервера и молитесь чтобы их боты яндекса и гугла с рамблером не завалили.

Вот тут - полностью поддержу. 🍻

Кричат о "ай, нас положили парсеры" обычно владельцы ГС на 50 страниц на говнохостингах в оправдание перед самим собой за то, что ГС вылетел из индекса :)

sokol_jack добавил 20.03.2009 в 10:58

bimcom:
Там где многопоточности нет - приходится её придумывать :( Надеюсь скоро это изменится.

А чего надеятся? Просто юзать что-то "более другое", чем php ;)

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Unlock
На сайте с 01.08.2004
Offline
738
#28
bimcom:
Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.

Не надо ля-ля... У меня сайт на 50K страниц есть. Мне ждать когда Вы его за 50 минут спарсите? Причем тут самописный уник? Есть сайты-справочники, у них в порядке вещей по 50-200K страниц.

sokol_jack, Вы прежде чем аплодировать, разберитесь в ситуации. Я не против парсинга, но создавать дикую нагрузку на ресурсы это уже ни в какие рамки.

B
На сайте с 23.10.2006
Offline
170
#29
Unlock:
Не надо ля-ля... У меня сайт на 50K страниц есть. Мне ждать когда Вы его за 50 минут спарсите?

Поверьте - те кто занимался граббингом - в первую очередь заинтересованны тобы ваш сайт не завалить - т.к. при завале он контент не отдаст и придется тащить все заново, а вот 50 минут или 1 день парсить сайт - значения не играет, а вот если параметры 1 неделя или 1 год - вот тут уже и нужны IPки и куча потоков.

Если вы за трафик переживаете - так исходящий вроде везде бесплатен, этож не флуд вам на порт.

Unlock:

Причем тут самописный уник? Есть сайты-справочники, у них в порядке вещей по 50-200K страниц.

Что за справочники такие которые будет легче отпарсить чем найти оригинал? и его обработать?

Или вы про доски объявлений?

Unlock
На сайте с 01.08.2004
Offline
738
#30

bimcom, по граббингу. Делайте это так, чтобы не напрягать владельца ресурса. Это все о чем я хотел сказать. Всегда можно определить максимальный поток который держит сайт и начать фигачить чтобы быстрее собрать данные. А можно быть чуть скромнее и не нагружать по максимому сайт.

По поводу оригинала, не понял. Я и говорил про оригинал, а не клоны, которые тупо спарсены и выложены в том же виде.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий