Слава Шевцов

Слава Шевцов
Рейтинг
370
Регистрация
23.07.2005
kostich:
Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.

Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

di_max:
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.

Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.

Kpd:
Осталось найти серьезного хостера, который вас примет :)

Добавляйте в каждое письмо что-нибудь типа "Извините, если это письмо попало к вам по ошибке. Для отмены подписки перейдите по ссылке" и после перехода по ссылке ящик заносится в отдельный список и на него уже ничего не отправляется. Не панацея.

Это будет, безусловно. Один клик и человек отписался. От этого защиту найти можно. Что делать с профи-абузерами от конкурентов? Или тем же спамом: проспамить Москву можно всего за 100 баксов. Проспамить 10 своих адресов за 10 баксов, с учётом времени написания письма и 10 абуз-репортов в ДЦ.

писатель:
Очень интересно как выглядел технически и программно Яндекс когда он только появился, где бы эту инфу нарыть? :)

http://www.turtle.ru/db/architecture/

писатель:
Да именно, технические аспекты, большую часть своих вопросов я разрешил благодаря ответам в этом топике. :)
Я прошу прощения, но разве трафик уже не бесплатный у большей части хостингов? 😕

Если входящий превышает некоторое соотношение, то платный. Доллара 3 за Гб. Вам ещё предстоит понять, как его можно выровнять до нормалдьного соотношения, чтобы он стал бесплатным. Говорят, Яндекс для бесплатности трафика купил narod.ru :D

Logistic:
_mihey, не знаю как у вас, но данный конкретный клиент смотрит тупо на результат (и правильно делает, кстати). И у него при следующей нашей встрече может возникнуть вопрос: а зачем нам платить $1500 вместо $800 за те же результаты?... И что мне ему ответить?

А зачем ему отвечать. Ищите, за что можете наказать конкурента. И наказывайте.

kostich:
Кстати если за php паука поговорить, то в non blocked тыщ 6 сокетов нормально тянет... правда select там иногда глючит, но это отслеживается. Если по 300 сокетов расфоркать на 20 процессов, то по мегабитам прилично там ссасывает... до 400 мегабит наман сливает... смысла лить быстрее нет, т.к. надо еще и записывать это куда-то.

Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.

Да, спасибо. Интересный вариант. То есть брать крупного хостера, требовать в договоре возможность отключения только по суду, требовать возмещение ущерба, например в размере среднего валового дохода с сайтов на сервере. Стоить будет прилично, но вариант дельный.

di_max:
Простите, но это же Ваши слова:

А в сервера... Денег можно угрохать ровно столько, сколько есть.;)

Для меня хостинг - это сервера + colocation. Просто из-за того, что на певое время легче сервера арендовать. И вот тогда человек получит $300-400 в месяц арендной платы за средненькие сервера типа P-IV. Или может купить три сервера за $10К минимум. Как говорится: вы ещё пишете поисковики на PHP? Тогда мы идём к Вам :D

di_max:
Откуда такая цифра?😮
У Релком - 40$ за юнит.
WEB-сервер - 1 юнит, 2 других - 2-х юнитное железо.
Итого: 5 юнитов х 40$ =200$х12 месяцев=2400$

А сервера откуда? Или они бесплатные?

Всего: 33369