- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте. Я программист с десятилетним опытом разработки программ. Моя область экспертизы - парсинг сайтов и обработка данных. Я успешно завершил более 300 проектов парсинга сайтов.
Мой опыт:
* Парсинг больших сайтов, содержащих миллионы страниц
* Использование прокси для обхода защиты сайтов от парсинга
* Парсинг сайтов, защищённых каптчей
* Парсинг динамических-сайтов, работающих на javascript (AJAX)
* Извлечение данных из открытых API веб-сервисов
* Обработка данных в XML, JSON, CSV документах
* Хранение и обработка данных в Redis, MongoDB, MySQL и Postgresql базах данных
* Построение веб-интерфейсов для управления парсерами сайтов
* Построение сложных систем обработки данных из множества источников
Примеры выполненных проектов: http://getdata.pro/ru/project
Я автор открытого python фреймворка парсинга сайтов http://github.com/lorien/grab. Я использую этот фреймворк в большинство моих проектов парсинга сайтов
.
Я буду рад поработать в интересном проекте, связанном с парсингом сайтов и обработкой данных. Вы можете связаться со мной через email или skype и мы подробно обсудим ваш проект, я назову цену и время, необходимое для сбора данных.
Мои контакты:
* email: support@getdata.pro
* skype: skype: lorien.name
Хотелось бы услышать выше мнение, по поводу системы защиты от парсинга, которая основана на запрете доступа к сайту из "датацентровских" диапазонов IP. Что-то похожее было когда-то на кинопоиске. Суть в том, что все диапазоны IP вручную делятся на "датацентровские" и "пользовательские". С датацентровских не пускает вообще, с "пользовательских" 50 контентных страниц в день с одного IP.
Насколько сложно пробивать такую защиту?
Могу лишь сказать, что неоднократно парсил kinopoisk, какой-то защиты там не заметил. Ну да, он банит ip после N запросов, но когда я подключаю проксилист на пару тысяч IP, то всё парсится без проблем.
Мне кажется идея защиты с помощью скомпилированного заранее списка IP не очень удачная. Да и 50 запросов с одного IP может оказаться проблемой для легитимных пользователей.
Я считаю, защита должна основываться на анализе действий, происходящих с конкретного IP:
* слишком быстрые запросы - бан
* запросы с одинаковым referer или без оного - бан
* запросы только HTML страниц без запросов CSS/JS файлов - бан
* запросы без выполнения JS - бан
* запросы с перебором множества разных user-agent (и других свойств браузера) - бан
А прокси - это не всегда IP датацентров. К примеру awmproxy.com, proxyrack.com, luminati.io - это НЕ датацентры.
При желании любая защита обходится. Вопрос желания или цены ресурсов, нужных чтобы обойти защиту.
Вы можете указать примерный диапазон цен на ваши услуги?
Всё зависит от проекта.
От 3 до 15 тысяч рублей обычно.
Хотел работу предложить человеку, но как-то озадачила такая реакция на обращение в скайп:
Авито парсите?
> Хотел работу предложить человеку, но как-то озадачила такая реакция на обращение в скайп:
> http://i.gyazo.com/c8b5697dbee854126becb93532006471.png
Бывают накладки. Не заметил ваших предыдущих сообщений в истории скайпа, поэтому так и ответил. Я очень неадекватно (или наоборот адекватно) отношусь к тем, кто излишне фамильярен в начале беседы.
У меня нет цели брать за все проекты подряд или работаь со всеми людьми, кто обратился ко мне. Если чем обидел, прошу прощения.
> Авито парсите?
Нет. Но могу дать контакты человека, который этим занимается (база авито в актуальном состоянии).
Не очень люблю писать отзывы в подобных случаях. А случай такой, что человек прекрасно справился с поставленной задачей. Наверное это может назвать идеальной работой. Сроки, цена, результат - нет вопросов. Не было никаких трудностей в общении.
До этого точно такую же работу делал другой человек. Это был взаимный ужас. Уйма времени, нервов и вообще было очень тяжко. Тут совершенно обратная ситуация.
И возвращаясь к началу сообщения. Писать отзывы о таких спецах не люблю, т.к. чем больше хороших отзывов, тем больше занят человек и тем больше стоимость работы. :) Что точно не в моих интересах. Такие контакты хочется заныкать и никому не палить. :)