Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.
Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.
Это будет, безусловно. Один клик и человек отписался. От этого защиту найти можно. Что делать с профи-абузерами от конкурентов? Или тем же спамом: проспамить Москву можно всего за 100 баксов. Проспамить 10 своих адресов за 10 баксов, с учётом времени написания письма и 10 абуз-репортов в ДЦ.
http://www.turtle.ru/db/architecture/
Если входящий превышает некоторое соотношение, то платный. Доллара 3 за Гб. Вам ещё предстоит понять, как его можно выровнять до нормалдьного соотношения, чтобы он стал бесплатным. Говорят, Яндекс для бесплатности трафика купил narod.ru :D
А зачем ему отвечать. Ищите, за что можете наказать конкурента. И наказывайте.
Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.
Да, спасибо. Интересный вариант. То есть брать крупного хостера, требовать в договоре возможность отключения только по суду, требовать возмещение ущерба, например в размере среднего валового дохода с сайтов на сервере. Стоить будет прилично, но вариант дельный.
Для меня хостинг - это сервера + colocation. Просто из-за того, что на певое время легче сервера арендовать. И вот тогда человек получит $300-400 в месяц арендной платы за средненькие сервера типа P-IV. Или может купить три сервера за $10К минимум. Как говорится: вы ещё пишете поисковики на PHP? Тогда мы идём к Вам :D
А сервера откуда? Или они бесплатные?