Определить где контент на сайте

M
На сайте с 03.06.2012
Offline
73
652

Здравствуйте, подскажите можно ли как то определить блок на сайте в котором наибольше информации.

PS,делаю парсер сайтов. на исходе не знаю какой сайт будет но нужно взять только конттент, поэтому думаю нужно брать лишь самый большой блок по информации

[Удален]
#1

meverikxp, в <body></body> как правило больше всего, но бывают и исключения :)

M
На сайте с 03.06.2012
Offline
73
#2
burunduk:
meverikxp, в <body></body> как правило больше всего, но бывают и исключения :)

Оно и правильно но так попадут и всякие ракламки с сайта которые вверху или слева, справа, так же футер и шапка это все в боди, хотелось более красиво сделать

slavegirl
На сайте с 25.06.2012
Offline
401
#3

meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)

Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.

В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.

🌅 Фото с выпускного ––  https://t.me/Keep2Share/23767
B4
На сайте с 25.04.2013
Offline
2
#4
slavegirl:

В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.

полностью поддерживаю, сам так делал когда-то

M
На сайте с 03.06.2012
Offline
73
#5
slavegirl:
meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)

Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.

В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.

В принципе согласен, еще один момент как лучше парсить использовать регулярное выражение (не пойму конечно как найти будет закрывающийся тег нужного блока) или использовать библиотеку (если да то какую). Спасибо!

php.developer
На сайте с 22.11.2010
Offline
94
#6
meverikxp:
В принципе согласен, еще один момент как лучше парсить использовать регулярное выражение (не пойму конечно как найти будет закрывающийся тег нужного блока) или использовать библиотеку (если да то какую). Спасибо!

XPath используйте.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий