Алгоритм, который позволит выделять текст на странице

86

Cyrox

3 апреля 2008, 18:30

1343

Нужно придумать алгоритм, который поможет отделять текст (не считая меню и другой служебный текст) на произвольной странице от метатэгов. Сейчас есть несколько идей по алгоритму, хотел бы услшыть ваши соображения.

1. Определение по тэгам <p>, <h.> т др "текстовых" тегов- самый примитив.

2. Определение блока между тэгами, который состоит более, чем из n слов, определение вида тэга, содержащего текст, парсинг по данному тэгу - большая выделить не только текст.

3. Определение текста по наличию знаков препинания перед/после количеством слов, большим, чем n - вроде как самый неплохой вариант.

Буду рад, если поделитесь соображениями или ссылками по теме.

215

ciber

3 апреля 2008, 20:50

#1

угу неоднократно обсуждалась на yabiz.ru

272

Алексей Барыкин

17 апреля 2008, 11:10

#2

Регулярные выражения.

http://www.pcre.ru/

https://adminbook.ru/

86

Cyrox

17 апреля 2008, 13:41

#3

Регулярки - только один из элементов системы (не факт, что обязательный). Но нужен еще грамотный алгоритм. Думаю, скоро реализую штуковину и выложу для теста и обсуждения.

324

response

17 апреля 2008, 14:11

#4

да есть уже такие системы, баян и фигня. Сначала разделяешь на предложения, потом смотришь по скоплению предложений. Плюс-минус работает, дальше можно даже не запариваться. Тут просто сам подход ацтой - тырить plain-текст нецелесообразно. Мыслите ширше.

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)

119

wmz

17 апреля 2008, 20:09

#5

response, интересно, это как? Можно в личку. Интересна эта тема :)

324

response

18 апреля 2008, 08:17

#6

wmz:
response, интересно, это как? Можно в личку. Интересна эта тема :)

что именно "как"?

если первое, то еще в прошлом году я выкладывал пусть непрактичный, но рабочий прототип - он кажется не просто тырил контент из серпа по запросам, а именно на предложения тексты разбивал. Хотя там все не так серьезно было, но хоть какая-то иллюстрация. Если не в тему, то переформулирйте запрос (ц) :)

86

Cyrox

18 апреля 2008, 14:36

#7

response:
да есть уже такие системы, баян и фигня.

Боян - конечно. Тема контента всегда актуальна. А фигня ли - это от конкретных целей и задач зависит.

response:

Сначала разделяешь на предложения, потом смотришь по скоплению предложений. Плюс-минус работает, дальше можно даже не запариваться. Тут просто сам подход ацтой - тырить plain-текст нецелесообразно. Мыслите ширше.

Примерно так и делаю, но с некоторыми нюансами. Потом вынесу на обсуждение.

Широта мышления приходит с опытом. А опыт - сын ошибок трудных. :)

Что будет за перевод Вывод на Москоммерцбанк Тревожно насчет fozzy.ru

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел