Парсинг egrul.nalog.ru

D
На сайте с 28.06.2008
Offline
977
641

Кто-то пытался массово получать данные с egrul.nalog.ru ?

Интересует два момента:

1. Есть ли лимит запросов, раньше была капча, сейчас ее нет?

2. Как мне получить (скачать) pdf зная ИНН? Никогда ничего похожего не делал на PHP, даже не знаю как загуглить?

P.S. мне надо порядка 20-50.000 запросов (срочности нет)

P.S.S. смотрел сторонние сервисы, но ни у кого нет информации по правоприемнику, если организация закрылась, а мне это нужно и это есть в выписках с egrul.nalog.ru

_
На сайте с 24.03.2008
Offline
357
#1

Ну они вроде без авторизации отдают... значит так или иначе спарсите свои 50к, пусть даже 1к прокси для этого понадобятся (к примеру).

Думается капча потом появится, запроса после энного.

В чем проблема сформировать url ? Вроде-бы всё в полях кнопки для него есть.

Что не работает ?

D
На сайте с 28.06.2008
Offline
977
#2
_SP_:
Что не работает ?

В момент запроса данных по ИНН я в консоле хрома вижу только один запрос вида

Я не понимаю как получить и сохранить pdf файл для дальнейшего распарсинга

DD
На сайте с 16.05.2012
Offline
65
#3

Когда то работали с этим вопросом. Проблема только со скоростью.

_SP_:
Вроде-бы всё в полях кнопки для него есть.

Эта информация динамически грузится. В документе ее нет.

Dram:
Я не понимаю как получить и сохранить pdf файл для дальнейшего распарсинга

Все достаточно тривиально

когда делаешь поисковый запрос получаешь в ответ JSON объект типа


{"t":"C639546DE6364BFC462A39C02862A0B22F85F1E317B359D71395917F336D71BAA0236A6C60146CE8DA52DA53239A290DC8D49DCF99ECD6F42984FCB851DAF1702B970C938627ED122A7A66BEDCA70A09","captchaRequired":false}

берешь значение из t и делаешь с ним следующий запрос, (AJAX) типа


egrul.nalog.ru/search-result/{здесь подставить ранее полученное}

в ответ получаешь список с данными. В том числе и для скачивания нужного документа

может быть капча. разгадывается.

И следи за заголовками. куками.

Разработка систем сбора данных на Python/Golang/NodeJs
D
На сайте с 28.06.2008
Offline
977
#4

Когда я делаю запрос, я сразу получаю json вида

{"rows":[{"g":"ЗАВЕДУЮЩИЙ: Сидунова Марина Дмитриевна","cnt":"1","c":"МБДОУ ЦРР-Д/С № 21 \"ЕЛОЧКА\"","a":"357625, СТАВРОПОЛЬСКИЙ КРАЙ, ГОРОД ЕССЕНТУКИ, УЛИЦА ПЯТИГОРСКАЯ, 138, -, -","n":"МУНИЦИПАЛЬНОЕ БЮДЖЕТНОЕ ДОШКОЛЬНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ЦЕНТР РАЗВИТИЯ РЕБЕНКА-ДЕТСКИЙ САД № 21 \"ЕЛОЧКА\"","o":"1092650000816","k":"ul","i":"2626040162","t":"FBA047AD5258598795AD7321709887EAC315D667553496981D7DDA449EF4A7E90E0FFC0B5D5CDB469A17C62832744ADF7CBB07098E2C365FD6DE79E218FDC2BF","pg":"1","tot":"1","r":"06.03.2009","p":"262601001"}]}

И вижу единственный запрос, который возвращает этот json https://egrul.nalog.ru/search-result/C1FCDE004309D127EF797B7DBCDEF367E8C0C591814B0E7FFC61111FDA4B05D7C0402EA65661FDDDA41ACC673485FCEB16439FBF6AD7D22CA7343EF94AC1078E8FFCC57538C758FE1705FACF09074F6B?r=1578986770855&_=1578986770856

В момент генерации пдф происходят еще 2 запроса:

1.

egrul.nalog.ru/search-result/C1FCDE004309D127EF797B7DBCDEF367E8C0C591814B0E7FFC61111FDA4B05D7C0402EA65661FDDDA41ACC673485FCEB16439FBF6AD7D22CA7343EF94AC1078E8FFCC57538C758FE1705FACF09074F6B?r=1578986770855&_=1578986770856

2.

egrul.nalog.ru/vyp-status/6F4D92D765A642655C206BCDC3A37F9A561E5FE72CD45C2371DCDA1821A9B9477A8FBBDE511C85E0C4F092DAB314F3339E01DF204609BE6040758AECFB58C986?r=1578987028574&_=1578987028574

Если следовать вашей инструкции - ничего не получается.

---------- Добавлено 14.01.2020 в 11:06 ----------

Все разобрался, там еще один запрос вида

egrul.nalog.ru/vyp-download/2338C1DCA8C64A733C4971BC2985276A73C01338873BF956EBB6F488BA1F1617D0EFA54213840900A62F383FA5E29C05B0C4C25CCC60B63BEA925D9C250B22D3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий