Запаритесь же, если в ручную настраивать парсер под каждый сайт - Doorways & Cloaking

35

Alex DeLarge

24 октября 2012, 10:10

#11

Делал когда-то такую штуку под себя. Алгоритм был что-то типа - найти элемент на странице у которого в дочках наибольшее количество тегов p и вытащить из него только текст. В большинстве случаев срабатывало.

Новости 3D принтеров и 3D печати (http://3dpmake.com)

Передают ли вес ссылки Онлайн html редактор с Тег a, без href

О

67

оранжевый

24 октября 2012, 13:01

#12

https://github.com/aaronsw/html2text

149

maxwell

24 октября 2012, 13:06

#13

оранжевый:
https://github.com/aaronsw/html2text

У этого варианта есть серьезный минус: он сам не определяет кодировку исходного html документа. Т.е. придется предварительно поработать с ним.

D

128

daymos

24 октября 2012, 13:12

#14

regexp

десятьбукв

Шаблоны Pandorabox, Шаблоны Zennoposter (http://zennolab.com/discussion/threads/shablony-daymos-70096689.15233/) скайп daymos1

[Удален]

25 октября 2012, 10:06

#15

Могу выпарсить вам чистую текстовку из указанных вами сайтов, программу буду использовать CD 🍿

1MB текста = 1wmz

131

Никанет

25 октября 2012, 12:20

#16

Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)

Пингвин 3.0 запущен, официально Ручной и автоматический режим Дорген PandoraBox - вопросы

[Удален]

25 октября 2012, 12:35

#17

Никанет:
Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)

А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.

[Удален]

25 октября 2012, 19:09

#18

а у меня под доры скрипт пашет на хуманэмуляторе

собирает и текст и заголовки ссылок то бишь кеи и картинки:)

запускаешь приходишь и оппа все уже разложено по полочкам:)

может потом еще дизайны буду собирать для анализа и тексты раскладывать на составляющие...

;)

Яндекс выпустил новую версию Новая версия Яндекс.Диска для Приложение Yandex Launcher для

85

limoshkaa

25 октября 2012, 19:46

#19

ТС советую вам хорошую программу , юзаю давно в своих целях .

ZParserUltra универсальный парсер контента и графикиl

153

vadts

25 октября 2012, 19:49

#20

Искусственного интеллекта нет. Обычно пишется руками парсер под конкретный сайт, исходя из структуры его страниц.

fura.pro, gruzovik.pro, rezume.pro, rezina.pro, prognoz.pro, referat.pro, voditel.pro, zdanie.pro (mailto:vadim@svitonline.com?subject=.pro)

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Open AI тестирует память для ChatGPT

Как парсить с разных сайтов чистый текст?