Как убрать общие части 2-х html страниц?

196

VoV@

9 апреля 2010, 11:35

430

Коллеги, дайте совет:

Имеем 2 страницы исходного текста на хтмл, страницы берутся с одного хоста.

Задача - отсечь от них одинаковые блоки кода, и оставить только блоки с различным содержимым, т.е. убрать шаблонную часть не зная шаблона. Нужно выделить именно блоки <table> <div>, учитывая тот факт, что они могут быть вложены друг в друга.

Нужен алгоритм как всё это проделать максимально эффективно, т.е. не испортив блоки с искомым содержимым и достаточно быстро.

⭐ Разработка Андроид-приложений (Xamarin C#). ⭐ Разработка ASP.NET (WebForms, MVC, WebAPI, Core). ⭐ Цой жив!

225

ewg777

9 апреля 2010, 11:39

#1

*deleted* - где-то там было такое, *может и не там*

Серьёзный нетер...

234

Alipapa

9 апреля 2010, 12:06

#2

Я бы в первую очередь просмотрел функции парсинга xml, они могут существенно упростить этот процесс.

Биржа фриланса - простая и удобная (http://kwork.ru/ref/2541)

196

VoV@

9 апреля 2010, 12:19

#3

Alipapa:
Я бы в первую очередь просмотрел функции парсинга xml, они могут существенно упростить этот процесс.

да и с парсингом хтмл особых проблем нет, в сети много готовых решений.

*deleted* - где-то там было такое, *может и не там*

Там я посмотрел. Нашёл в блоге 1 пост, где описывается создание робоблога на основе Yahoo Pipes. Но это не совсем то.

Все что нужно знать о DDоS-атаках грамотному менеджеру

Дзен реализовал для авторов возможность вывода денег через СПБ