Вытащить нужный кусок html кода со всех страниц

171

Brucekiev

3 июля 2014, 11:52

1481

Добрый день.

Прошу помочь решить проблему.. желательно программами, которые можно найти в открытом доступе.

Задача: Есть сайт, который построен на одном шаблоне. В html коде каждой страницы есть уникальные строчки, которые более на странице не повторяются: <h1> бла..бла..бла.. <eho>. Необходимо вытащить html код, который находится внутри этого диапазона, со всех страниц сайта.

Весь html код сайта есть локально на компьютере, но чтобы ручками каждую страницу не открывать и не копировать, нужно автоматом от и до заданного места вытащить все что внутри находиться :)

309

iqmaker

3 июля 2014, 12:45

#1

python + pyquery

148

Matman

3 июля 2014, 12:52

#2

Notepad - открыть все файлы и автозаменой шлепнуть)

текст что нужно убрать - на пустое поле

Buylink.pro (https://buylink.pro/) - качественные вечные ссылки

600

Фома

3 июля 2014, 13:02

#3

Matman:
Notepad - открыть все файлы и автозаменой шлепнуть)
текст что нужно убрать - на пустое поле

Если файлов пару сотен, то да, если значительно больше или сменить надо строк 20, то Notepad бессилен.

Вот этой штукой Search And Replace менял недавно на 20+тыс страницах счётчик Li на Метрику.

Аренда апартаментов на Тенерифе (http://las-americas.ru/).

389

serjoo

3 июля 2014, 13:04

#4

Фома:
Вот этим Search And Replace менял недавно на 20+тыс страницах счётчик Li на Метрику.

Счетчик изначально в футере разместить не вариант?

Мультур..

600

Фома

3 июля 2014, 13:06

#5

serjoo, старый, самый первый дор, без инклюдов сделал. Теперь то да, конечно всё разбиваю на инклюды. Но тема вроде как не об этом. 🍿

171

Brucekiev

3 июля 2014, 13:09

#6

Фома:
Если файлов пару сотен, то да, если значительно больше или сменить надо строк 20, то Notepad бессилен.

Вот этой штукой Search And Replace менял недавно на 20+тыс страницах счётчик Li на Метрику.

Файлов чуть более 3к

И надо не сменить что-то на что-то, а вытащить и поместить в отдельный файл/файлы (текстовые документы) то что вытащили.

Как писал выше, я могу задать только строчку/слово откуда надо начинать вытаскивать и то, где надо закончить.. Внутри разное кол-во текста в html коде.

Вытащить нужный код Как сделать фичу "ссылка Хотелось бы вытащить pdf

D

143

divv

3 июля 2014, 13:12

#7

Content Downloader, но только он платный, можете попросить кого нибудь спарсить.

600

Фома

3 июля 2014, 13:16

#8

Brucekiev:
И надо не сменить что-то на что-то, а вытащить и поместить в отдельный файл/файлы (текстовые документы) то что вытащили.

В первом посте вроде этого нет.

А всё остальное без проблем:

Утилита для пакетного поиска и замены слов/строк/абзацев в различных файлах. Search And Replace работает с файлами TXT, RTF, WRI, DOC, XML, ASP, HTML. Поддерживаются фильтры для поиска и произвольное редактирование. Программа Search And Replace позволяет устанавливать, где именно нужно редактировать текст: между конкретными строчками, в начале или конце, между определёнными признаками и т.п. Возможно сохранение результатов поиска.

171

Brucekiev

3 июля 2014, 13:32

#9

Фома, то что надо вытащить писал ранее.. а то что поместить в "левый" файл не писал, да :)

Так что интересует не замена, а именно парсинг определенного заданного участка внутри html кода страницы.

PS спасибо всем кто обратил внимание на мою проблему.. надеюсь что получиться ее решить)

Вытащить нужный код Дорвеи несущие 2000$ дейли, Как понизать скорость загрузки

309

iqmaker

3 июля 2014, 13:49

#10

Brucekiev, можете посмотреть в сторону grep, если в файле искомая строка четко задается регуляркой, то можете поюзать grep -P

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Переиграть и победить: как анализировать конкурентов для продвижения сайта