А что сейчас на рынке прокси происходит ? Говновыдача какая-то в Я и Г.

12
_
На сайте с 24.03.2008
Offline
381
2289

Попытался найти каких-то "нешкольных" поставщиков прокси, и что-то как-то глухо.

Нужны 100% анонимные, чтобы "не палиться лишний раз".

Есть задача спарсить "дофига всего".

Как то:

некоторые товарные категории с ебея и амазона, отзывы на некоторых продавцов оттуда итд итп.

(нет - через встроенный апи никак, ибо это всё явно запрещенные ебеем-амазоном исследования конкурентов)

Плюс к этому еще хотелось собрать инфу с нескольких среднего размера форумов, часть за клоудфларе.

Ничего никуда писать не планирую, гугл-яндекс насиловать тоже неинтересно.

Думается кроме гет-ов вообще ничего не буду посылать.

Собственно кто чем посоветует воспользоваться ?

Может есть вообще сервис, которому скармливаешь кучку URL, а он тебе упакованные архивы с ответами присылает ?

Самому написать многопоточный парсер не труд, но СААС тут больше подошел-бы, наверное.

Вообще ценообразование ныне какое ?

Вижу многих, кто торгует списками чужих прокси :) это неинтересно.

Интересно когда они свои, и есть какие-то лимиты, которые не позволяют их "сожрать" соседям.

kxk
На сайте с 30.01.2005
Offline
970
kxk
#1

_SP_, Есть буржуйские сервисы, но очень дорого, по меркам Рунета просто безумно дорого, старт что-то вроде от 500 уе в месяц и более, ip не серверные, в больших Vlan домосеток тысячи компов.

Ваш DEVOPS
_
На сайте с 24.03.2008
Offline
381
#2

А есть ли смысл ?

Я никогда ничего всерьез не грабил, только у меня грабили :)

Мне надо нединамическую картину снимать, т.е. по миллиону запросов в день не нужно.

Что-то сомневаюсь я, что будут банить при запросе 1 страницы с ip раз скажем (в среднем) в 5с.

Это без малого 20к страниц в день с одного ip. Мммм... яб такие ip банил конечно :)

Какие реально лимиты у подобных амазону-ебею-клоудфларе сервисов можно ожидать ?

Явно ведь не по одной странице на пользователя.

А если по 20к можно вынимать, то мне и десятка хватит... нормальных прокси.

200к страниц в день - это достаточно, чтобы загрузить текущие аналитические мощности,

не всё алгоритмизируется, результаты всё равно перепроверять в полуручном режиме.

Тут скорее вопрос у кого правильнее этот десяток взять, чтоб потом не материться.

kxk
На сайте с 30.01.2005
Offline
970
kxk
#3

_SP_, Там минимальные цены и неважно 20 прокси Вы используете или 3000, поймите правильно среди буржуев никто нидвидуально ради пары баксов церемониться небудет.

_
На сайте с 24.03.2008
Offline
381
#4

Странно, во всех других областях американцы и европейцы готовы драться и за небольшие заказы...

Впрочем, какая разница откуда ? IP необязательно американские, слава богу целевые сервисы доступны из любой страны мира.

kxk
На сайте с 30.01.2005
Offline
970
kxk
#5

_SP_, Ну тогда обращайтесь к FineProksy или как-то так (мне за рекламу не платят)

I8
На сайте с 17.05.2010
Offline
99
#6
kxk:
_SP_, Ну тогда обращайтесь к FineProksy или как-то так (мне за рекламу не платят)

Коллега дело говорит. fineproxy это то что вам нужно. Цены у них на разный вкус и цвет и размер кошелька. Недавно у них появились пакеты прокси где 25000, 50000 и 100000 серверных прокси.

Общайтесь договаривайтесь.

юни
На сайте с 01.11.2005
Offline
901
#7
_SP_:
Интересно когда они свои, и есть какие-то лимиты, которые не позволяют их "сожрать" соседям.

Это не проблема, но вот сервис на уровне "даёшь url - получаешь результат" реализован разве что для поисковиков.

Либо надо заранее согласовывать список нужных ресурсов для парсинга.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
kxk
На сайте с 30.01.2005
Offline
970
kxk
#8

_SP_, Вот вам diffbot.com то что вы искали, сам выпарсит, длайте ему урлы получите результат - без возни

TF-Studio
На сайте с 17.08.2010
Offline
334
#9

_SP_, а вы можете чуть более развернуто пояснить свои мысль по поводу апи этого.

Нюансов-то много.

Крупняки парсить многопоточно в лоб не выйдет. Нужна имитация браузера.

по вашему описание - совсем не ясно. по сути - простейший скрипт нужен с curl в цикле.

не ясно в чем загвоздка была.

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
_
На сайте с 24.03.2008
Offline
381
#10
TF-Studio:
_SP_, а вы можете чуть более развернуто пояснить свои мысль по поводу апи этого.
Нюансов-то много.
Крупняки парсить многопоточно в лоб не выйдет. Нужна имитация браузера.
по вашему описание - совсем не ясно. по сути - простейший скрипт нужен с curl в цикле.
не ясно в чем загвоздка была.

Да ни в чем нет загвоздки.

Я бесспорно накатаю свою инфраструктуру, однако можно было бы этого и не делать, если есть готовая. Апи простой был бы удобен. Ты ему - кучу урлов, он тебе выдачу по этим урлам.

Желательно еще и хорошенько зазипованную (если это не графика).

С крупняками будем смотреть, но что-то мне подсказывает, что никуда они не денутся, потихоньку будут отдавать разным прокси содержимое даже и без имитации браузера. Но надо экспериментировать конечно. Речь не о сотнях миллионов страниц, речь о десятках-сотнях тысяч ежедневно.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий