Как убрать общие части 2-х html страниц?

VoV@
На сайте с 22.09.2007
Offline
196
419

Коллеги, дайте совет:

Имеем 2 страницы исходного текста на хтмл, страницы берутся с одного хоста.

Задача - отсечь от них одинаковые блоки кода, и оставить только блоки с различным содержимым, т.е. убрать шаблонную часть не зная шаблона. Нужно выделить именно блоки <table> <div>, учитывая тот факт, что они могут быть вложены друг в друга.

Нужен алгоритм как всё это проделать максимально эффективно, т.е. не испортив блоки с искомым содержимым и достаточно быстро.

⭐ Разработка Андроид-приложений (Xamarin C#). ⭐ Разработка ASP.NET (WebForms, MVC, WebAPI, Core). ⭐ Цой жив!
ewg777
На сайте с 04.06.2007
Offline
225
#1

*deleted* - где-то там было такое, *может и не там*

Серьёзный нетер...

Alipapa
На сайте с 01.02.2008
Offline
194
#2

Я бы в первую очередь просмотрел функции парсинга xml, они могут существенно упростить этот процесс.

Биржа фриланса - простая и удобная (http://kwork.ru/ref/2541)
VoV@
На сайте с 22.09.2007
Offline
196
#3
Alipapa:
Я бы в первую очередь просмотрел функции парсинга xml, они могут существенно упростить этот процесс.

да и с парсингом хтмл особых проблем нет, в сети много готовых решений.

*deleted* - где-то там было такое, *может и не там*

Там я посмотрел. Нашёл в блоге 1 пост, где описывается создание робоблога на основе Yahoo Pipes. Но это не совсем то.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий