Как парсить с разных сайтов чистый текст?

Alex DeLarge
На сайте с 25.02.2010
Offline
35
#11

Делал когда-то такую штуку под себя. Алгоритм был что-то типа - найти элемент на странице у которого в дочках наибольшее количество тегов p и вытащить из него только текст. В большинстве случаев срабатывало.

Новости 3D принтеров и 3D печати (http://3dpmake.com)
О
На сайте с 25.04.2010
Offline
67
#12
maxwell
На сайте с 29.04.2009
Offline
149
#13

У этого варианта есть серьезный минус: он сам не определяет кодировку исходного html документа. Т.е. придется предварительно поработать с ним.

D
На сайте с 29.10.2009
Offline
128
#14

regexp

десятьбукв

Шаблоны Pandorabox, Шаблоны Zennoposter (http://zennolab.com/discussion/threads/shablony-daymos-70096689.15233/) скайп daymos1
[Удален]
#15

Могу выпарсить вам чистую текстовку из указанных вами сайтов, программу буду использовать CD 🍿

1MB текста = 1wmz

Никанет
На сайте с 26.07.2010
Offline
131
#16

Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)

[Удален]
#17
Никанет:
Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)

А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.

[Удален]
#18

а у меня под доры скрипт пашет на хуманэмуляторе

собирает и текст и заголовки ссылок то бишь кеи и картинки:)

запускаешь приходишь и оппа все уже разложено по полочкам:)

может потом еще дизайны буду собирать для анализа и тексты раскладывать на составляющие...

;)

limoshkaa
На сайте с 31.07.2010
Offline
85
#19

ТС советую вам хорошую программу , юзаю давно в своих целях .

ZParserUltra универсальный парсер контента и графикиl

vadts
На сайте с 08.03.2008
Offline
153
#20

Искусственного интеллекта нет. Обычно пишется руками парсер под конкретный сайт, исходя из структуры его страниц.

fura.pro, gruzovik.pro, rezume.pro, rezina.pro, prognoz.pro, referat.pro, voditel.pro, zdanie.pro (mailto:vadim@svitonline.com?subject=.pro)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий