Парсинг сайтов любых объёмов

[Удален]
7982

Здравствуйте. Я программист с десятилетним опытом разработки программ. Моя область экспертизы - парсинг сайтов и обработка данных. Я успешно завершил более 300 проектов парсинга сайтов.

Мой опыт:

* Парсинг больших сайтов, содержащих миллионы страниц

* Использование прокси для обхода защиты сайтов от парсинга

* Парсинг сайтов, защищённых каптчей

* Парсинг динамических-сайтов, работающих на javascript (AJAX)

* Извлечение данных из открытых API веб-сервисов

* Обработка данных в XML, JSON, CSV документах

* Хранение и обработка данных в Redis, MongoDB, MySQL и Postgresql базах данных

* Построение веб-интерфейсов для управления парсерами сайтов

* Построение сложных систем обработки данных из множества источников

Примеры выполненных проектов: http://getdata.pro/ru/project

Я автор открытого python фреймворка парсинга сайтов http://github.com/lorien/grab. Я использую этот фреймворк в большинство моих проектов парсинга сайтов

.

Я буду рад поработать в интересном проекте, связанном с парсингом сайтов и обработкой данных. Вы можете связаться со мной через email или skype и мы подробно обсудим ваш проект, я назову цену и время, необходимое для сбора данных.

Мои контакты:

* email: support@getdata.pro

* skype: skype: lorien.name

Solmyr
На сайте с 10.09.2007
Offline
501
#1

Хотелось бы услышать выше мнение, по поводу системы защиты от парсинга, которая основана на запрете доступа к сайту из "датацентровских" диапазонов IP. Что-то похожее было когда-то на кинопоиске. Суть в том, что все диапазоны IP вручную делятся на "датацентровские" и "пользовательские". С датацентровских не пускает вообще, с "пользовательских" 50 контентных страниц в день с одного IP.

Насколько сложно пробивать такую защиту?

[Удален]
#2

Могу лишь сказать, что неоднократно парсил kinopoisk, какой-то защиты там не заметил. Ну да, он банит ip после N запросов, но когда я подключаю проксилист на пару тысяч IP, то всё парсится без проблем.

Мне кажется идея защиты с помощью скомпилированного заранее списка IP не очень удачная. Да и 50 запросов с одного IP может оказаться проблемой для легитимных пользователей.

Я считаю, защита должна основываться на анализе действий, происходящих с конкретного IP:

* слишком быстрые запросы - бан

* запросы с одинаковым referer или без оного - бан

* запросы только HTML страниц без запросов CSS/JS файлов - бан

* запросы без выполнения JS - бан

* запросы с перебором множества разных user-agent (и других свойств браузера) - бан

А прокси - это не всегда IP датацентров. К примеру awmproxy.com, proxyrack.com, luminati.io - это НЕ датацентры.

При желании любая защита обходится. Вопрос желания или цены ресурсов, нужных чтобы обойти защиту.

K
На сайте с 29.07.2008
Offline
76
#3

Вы можете указать примерный диапазон цен на ваши услуги?

[Удален]
#4

Всё зависит от проекта.

От 3 до 15 тысяч рублей обычно.

seobud
На сайте с 19.05.2008
Offline
136
#5

Хотел работу предложить человеку, но как-то озадачила такая реакция на обращение в скайп:

AdHub.pro ( https://adhub.pro/?utm_source=searchengines ) - тизерная сеть №1
eN_Slon
На сайте с 13.02.2007
Offline
159
#6

Авито парсите?

Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами. Любое кол-во, любые защиты.
[Удален]
#7

> Хотел работу предложить человеку, но как-то озадачила такая реакция на обращение в скайп:

> http://i.gyazo.com/c8b5697dbee854126becb93532006471.png

Бывают накладки. Не заметил ваших предыдущих сообщений в истории скайпа, поэтому так и ответил. Я очень неадекватно (или наоборот адекватно) отношусь к тем, кто излишне фамильярен в начале беседы.

У меня нет цели брать за все проекты подряд или работаь со всеми людьми, кто обратился ко мне. Если чем обидел, прошу прощения.

> Авито парсите?

Нет. Но могу дать контакты человека, который этим занимается (база авито в актуальном состоянии).

Unlock
На сайте с 01.08.2004
Offline
738
#8

Не очень люблю писать отзывы в подобных случаях. А случай такой, что человек прекрасно справился с поставленной задачей. Наверное это может назвать идеальной работой. Сроки, цена, результат - нет вопросов. Не было никаких трудностей в общении.

До этого точно такую же работу делал другой человек. Это был взаимный ужас. Уйма времени, нервов и вообще было очень тяжко. Тут совершенно обратная ситуация.

И возвращаясь к началу сообщения. Писать отзывы о таких спецах не люблю, т.к. чем больше хороших отзывов, тем больше занят человек и тем больше стоимость работы. :) Что точно не в моих интересах. Такие контакты хочется заныкать и никому не палить. :)

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий