Алгоритм, который позволит выделять текст на странице

Cyrox
На сайте с 17.12.2006
Offline
86
1336

Нужно придумать алгоритм, который поможет отделять текст (не считая меню и другой служебный текст) на произвольной странице от метатэгов. Сейчас есть несколько идей по алгоритму, хотел бы услшыть ваши соображения.

1. Определение по тэгам <p>, <h.> т др "текстовых" тегов- самый примитив.

2. Определение блока между тэгами, который состоит более, чем из n слов, определение вида тэга, содержащего текст, парсинг по данному тэгу - большая выделить не только текст.

3. Определение текста по наличию знаков препинания перед/после количеством слов, большим, чем n - вроде как самый неплохой вариант.

Буду рад, если поделитесь соображениями или ссылками по теме.

ciber
На сайте с 04.01.2008
Offline
215
#1

угу неоднократно обсуждалась на yabiz.ru

Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#2

Регулярные выражения.

http://www.pcre.ru/

Cyrox
На сайте с 17.12.2006
Offline
86
#3

Регулярки - только один из элементов системы (не факт, что обязательный). Но нужен еще грамотный алгоритм. Думаю, скоро реализую штуковину и выложу для теста и обсуждения.

response
На сайте с 01.12.2004
Offline
324
#4

да есть уже такие системы, баян и фигня. Сначала разделяешь на предложения, потом смотришь по скоплению предложений. Плюс-минус работает, дальше можно даже не запариваться. Тут просто сам подход ацтой - тырить plain-текст нецелесообразно. Мыслите ширше.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
wmz
На сайте с 09.04.2007
Offline
119
wmz
#5

response, интересно, это как? Можно в личку. Интересна эта тема :)

response
На сайте с 01.12.2004
Offline
324
#6
wmz:
response, интересно, это как? Можно в личку. Интересна эта тема :)

что именно "как"?

если первое, то еще в прошлом году я выкладывал пусть непрактичный, но рабочий прототип - он кажется не просто тырил контент из серпа по запросам, а именно на предложения тексты разбивал. Хотя там все не так серьезно было, но хоть какая-то иллюстрация. Если не в тему, то переформулирйте запрос (ц) :)

Cyrox
На сайте с 17.12.2006
Offline
86
#7
response:
да есть уже такие системы, баян и фигня.

Боян - конечно. Тема контента всегда актуальна. А фигня ли - это от конкретных целей и задач зависит.

response:

Сначала разделяешь на предложения, потом смотришь по скоплению предложений. Плюс-минус работает, дальше можно даже не запариваться. Тут просто сам подход ацтой - тырить plain-текст нецелесообразно. Мыслите ширше.

Примерно так и делаю, но с некоторыми нюансами. Потом вынесу на обсуждение.

Широта мышления приходит с опытом. А опыт - сын ошибок трудных. :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий