bimcom

Рейтинг
170
Регистрация
23.10.2006
neTpo:
мне еще интересно сколько посещаемость такого сайта, и сколько с этой посещаемости покупают доступ?

Вы щас как понял уже имеете сайт с которого на партнерку льете траф - вот и посчитайте сколько народ шлет смс-ок с 10 000 посетителей, как понимаю 1 смс - 1н фильм, а размер фильма известен - вот и траф высчитаете.

Накидал в экселе траф и канал (при условие что все равномерно растянуто на протяжение день/месяц, чтобы получить запас - увеличьте числа в 3-10 раз)


канал Мбит/сек размер фильма(Мбайты) кол-во продаж в сутки Трафик месячный (Тбайт)
0,138888889...............1500..............................1..............................0,042915344
13,88888889...............1500..............................100..............................4,291534424
69,44444444...............1500..............................500..............................21,45767212
138,8888889...............1500..............................1000..............................42,91534424

stifler_x:
У меня провайдер крутой :D Нас на одном ІР много, а на халяву качать с депозита всем хочется…

stifler_x добавил 22.03.2009 в 08:33
ЗЫ. И умника, который нагадил только что, хотел бы увидеть... Ответил бы тем же... только у меня бы на много лучше получилось ;)

Пользуйтесь сервисом http://filepost.ru/ - качайте на него, а потом с него - учень удобно, когда только на деразите лежит нужный файл (большие файлы так не покачаешь - дороговато получится, а мелкие - само то)

ООО "Бульдозер"

Тащим даже самые тяжелые запросы/сайты (может хостинг забабахаете).

Расчистим топ под вас.

Вычищаем топ от конкурентов :).

Че та ТС пропал - видать - все баланс = 0 :)) в инет не пускает.

Unlock:
bimcom, по граббингу. Делайте это так, чтобы не напрягать владельца ресурса. Это все о чем я хотел сказать. Всегда можно определить максимальный поток который держит сайт и начать фигачить чтобы быстрее собрать данные. А можно быть чуть скромнее и не нагружать по максимому сайт.
По поводу оригинала, не понял. Я и говорил про оригинал, а не клоны, которые тупо спарсены и выложены в том же виде.

Совершенно согласен, но мне не приятно что народ то этого не понимает - большинству кажется что я сейчас в 1000 потоков пойду их сайт бомбить.

Кстати - если ваш сай кто-то так бомбит - не поленитесь - напишите хостеру (или в ДЦ где хостится IP с которого бомбят) что на вас устраивают ДОС с их площадки - этого парсера сразу выкинут, ну или он перестанет вас бомбить (ссылайтесь на то что запросы этого IP перегружают ваш сервер и мешают стабильной работе)

Unlock:
Не надо ля-ля... У меня сайт на 50K страниц есть. Мне ждать когда Вы его за 50 минут спарсите?

Поверьте - те кто занимался граббингом - в первую очередь заинтересованны тобы ваш сайт не завалить - т.к. при завале он контент не отдаст и придется тащить все заново, а вот 50 минут или 1 день парсить сайт - значения не играет, а вот если параметры 1 неделя или 1 год - вот тут уже и нужны IPки и куча потоков.

Если вы за трафик переживаете - так исходящий вроде везде бесплатен, этож не флуд вам на порт.

Unlock:

Причем тут самописный уник? Есть сайты-справочники, у них в порядке вещей по 50-200K страниц.

Что за справочники такие которые будет легче отпарсить чем найти оригинал? и его обработать?

Или вы про доски объявлений?

Talamat:
Это, как мне кажется, совсем извращение... :)

Там где многопоточности нет - приходится её придумывать :( Надеюсь скоро это изменится.

Inoteol:
bimcom, проще всего взять ещё один дешёвый хостинг на другой домен. Там создать скрипт (к примеру get.php) со следующем содержанием:
echo implode("",file($_GET['url']));

После заменить в парсере "адрес_откуда_парсим" на "адрес_другого_хостинга/get.php?url=адрес_откуда_парсим".
Даже если сайт пока небанили, разумнее парсить с другого IP.

Я тоже так думал, но чет виртуальный хостинг за трафик сильно переживает + постоянное перерасход ресурсов - в объщем VPS дешевле и выгоднее. + В вашем примере нет учета таймаута - что не есть хорошо.

Analitic82:
Любители попарсить в 1000 потоков не думают, что с тем сайтом, сервером, с которого они тырят
Unlock:
Кстати верное замечание. Имейте совесть. Ну парсите, но блин, зачем еще и сервак класть?

Вот скажите - что с ваших сайтов сайтов "тырить" чтобы аж в 1000 потоков утаскивать ваши 500 страничек? Ну ладно 5000 страниц самописного уника? Это все в 1н поток уведется.

А вот в 10 - 100 - 1000 потоков парсится выдача яндекса, вордстат, статистика рамблера - т.к. тут уже количество материала измеряется десятками миллионов страниц и если тащить с 1го IP то пару лет можно прождать. Такчто будьте спакойны за свои сервера и молитесь чтобы их боты яндекса и гугла с рамблером не завалили.

RAS:
что-то массова стала бизнес-модель ПП (попарсить-п........) , уже даже нашел московскую контору по администрированию, которая у нас уперла текст сайта....

Как зашедший в эту тему администратор серверов - лучшеб сказали че полезное - например можно ли уменьшить объем потребляемой памяти httpd процессом, а то щас каждый поток потребляет 5904 Кб, а хотелось бы меньше.

PS.

Analitic82:
В этой теме я, например, не вижу, о каком администрировании говорят, похоже Ваша тема в этом разделе.

Для дорвеев контент вааааще не нужен ;)

Andreyka:
Возникает проблема где взять прокси

Вот поэтому проще купить пачку IPов по $0.8 и не дергаться с поиском (точнее с пакупкой списков) тормазных и отваливающихся проксиков, они нужны только для конфиденциальности (во время хака/спама, да и возможно что те прокси будут уже везде в бане).

Talamat:
Чот я правда загнул... висит несколько процессов, каждый по 30-40 метров...
С мультикурлом(в пхп) была проблема: ему даешь на скачивание 100 урлов, он половину не мог выкачать. Нормально работал только если не более 30 за раз. Вроде бы с ДНС проблема была... сейчас уже не помню :(

Попробуйте без мультикурла - просто на курле, но дергать этот скрипт через кучу сокетов - аля многопоточность получается.

Всего: 795