Определить где контент на сайте

73

meverikxp

6 августа 2013, 11:08

672

Здравствуйте, подскажите можно ли как то определить блок на сайте в котором наибольше информации.

PS,делаю парсер сайтов. на исходе не знаю какой сайт будет но нужно взять только конттент, поэтому думаю нужно брать лишь самый большой блок по информации

[Удален]

6 августа 2013, 11:17

#1

meverikxp, в <body></body> как правило больше всего, но бывают и исключения :)

3

M

73

meverikxp

6 августа 2013, 11:39

#2

burunduk:
meverikxp, в <body></body> как правило больше всего, но бывают и исключения :)

Оно и правильно но так попадут и всякие ракламки с сайта которые вверху или слева, справа, так же футер и шапка это все в боди, хотелось более красиво сделать

406

slavegirl

6 августа 2013, 12:09

#3

meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)

Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.

В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.

1

🔞 Как вернуть трафик после Core Update –– https://t.me/FilesKings/73558

CMS для информационного сайта Моды для phpbb, накидайте На чём делать первый

B4

2

boni4808

6 августа 2013, 13:13

#4

slavegirl:

В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.

полностью поддерживаю, сам так делал когда-то

M

73

meverikxp

7 августа 2013, 07:46

#5

slavegirl:
meverikxp, это похоже на то, если бы Вы приехали в супермаркет за суповым набором на экскаваторе и давай ездить по рядам :)

Для каждого типа сайтов нужно разрабатывать свои модули для парсера. Если брать, к примеру, форумы, то должен быть отдельный модуль для vBulletin, phpBB, SMF и т.д. Это, если нужен "аккуратный" парсер.

В противном случае, Вам нужно искать на сайте(ах) блоки (например <div></div>), в которых число "Plaintext разделить на HTML-код" будет наибольшим. Там и будет больше всего контента.

В принципе согласен, еще один момент как лучше парсить использовать регулярное выражение (не пойму конечно как найти будет закрывающийся тег нужного блока) или использовать библиотеку (если да то какую). Спасибо!

94

php.developer

7 августа 2013, 07:54

#6

meverikxp:
В принципе согласен, еще один момент как лучше парсить использовать регулярное выражение (не пойму конечно как найти будет закрывающийся тег нужного блока) или использовать библиотеку (если да то какую). Спасибо!

XPath используйте.

1

Курс биткоина превысил $50 тысяч

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы