Парсер через регулярное выражения

M9
На сайте с 15.05.2014
Offline
79
324

помогите извлечь json внутри переменной

g_page_config
https://regex101.com/r/NOx0Pf/1 json может быть разным исходя из запроса, но будет всегда хранится внутри переменной: g_page_config
DD
На сайте с 16.05.2012
Offline
82
#1

g_page_config.+?(<\/script>)

может так. Лишнее потом обрежете

можно через XPATH вытащить


//script[contains(text(),'g_page_config') ]/text()

и просто отрезать лишнее. Или через CSS селекторы.

Разработка систем сбора данных на Python/Golang/NodeJs
D
На сайте с 28.06.2008
Offline
1101
#2

$re = '~g_page_config(.*)</script>~sU';

ArbNet
На сайте с 27.10.2019
Offline
124
#3
Обсуждение разработки на моём фреймворке https://discord.gg/23N4s9x2kp
M9
На сайте с 15.05.2014
Offline
79
#4

Видимо не кто не перешел по ссылке и не проверил то что предложил, потому что не одна их предложенного не извлекает корректно.

S
На сайте с 30.09.2016
Offline
469
#5
mega94:
Видимо не кто не перешел по ссылке и не проверил то что предложил, потому что не одна их предложенного не извлекает корректно.

А сам-то проверил? Постом выше, ArbNet всё корректно извлёк. Если, конечно на сайте всегда такая структура страницы сохраняется.

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.
M9
На сайте с 15.05.2014
Offline
79
#6
Sitealert:
А сам-то проверил? Постом выше, ArbNet всё корректно извлёк. Если, конечно на сайте всегда такая структура страницы сохраняется.

Оо сори у меня выдать интернет медленный, не все сразу грузить =)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий