Хочу купить универсальный парсер. Подскажите, какой?

12
Siddhartha
На сайте с 14.08.2009
Offline
108
2125

Добрый день.

У меня есть потребность в относительно универсальном парсере контента.

Что я под этим понимаю:

Это программное решение - не важно, desktop или скрипт - способное спарсить контент(текст, рисунки и пр.) в указанных мной диапазонах с указанной мной структурой, по определённым правилам. И сохранить результат в виде html, txt и пр. соответствующего содержимого.

Хм.

Достаточно размытое описание вышло.

Но думаю, те, кто пользуются подобными решениями меня сразу поймут.

Идеальный вариант - Bget, но 2.5k я пока за него не готов отдать.

Возможно, уважаемое сообщество подскажет что-либо подходящее за относительно приемлемые деньги?

FL
На сайте с 03.02.2004
Offline
128
#1
Siddhartha:
Идеальный вариант - Bget

он прекрасно парсит и сохраняет по 500 позиций. После этого выгружаете их в файл и очищаете резалт. Запускаете парсинг - он добирает ещё 500, сохраняете в ТОТ ЖЕ файл (дописывая) и так по кругу

Siddhartha
На сайте с 14.08.2009
Offline
108
#2
FreeLancer:
он прекрасно парсит и сохраняет по 500 позиций. После этого выгружаете их в файл и очищаете резалт. Запускаете парсинг - он добирает ещё 500, сохраняете в ТОТ ЖЕ файл (дописывая) и так по кругу

Вот-вот.

Я как представлю - правила настроил, и ушел спать на всю ночь.. А к утру вся wikipedia :) у меня на рабочем столе в html.

Красота.

Именно из-за такой возможной автоматизации я и создал этот топик.

Тем более, что я использую лишь малую часть возможностей Bget.

Вы пользуетесь только Bget, или совмещаете с чем-то ещё?

Представьте, что нужно спарсить сто тысяч статей. Как вы это сделаете ?

YY
На сайте с 23.09.2009
Offline
32
#3

ТС, попробуй заюзать мой бесплатный. все подробности на блоге в подписи.

зы - читай комменты.

O
На сайте с 17.09.2009
Offline
37
#4

Я сейчас дописываю программу, которая парсит контент (текст, картинки) на указанных сайтах между указанных меток, затем фильрует его и уникализирует на ходу алгоритмами "Бипод" и "М1pluss", картинки переименовывает как название новости.

Настроек много. но все интуитивно понятно, могу дать бесплатно вам для теста, все уже работает.

M1pluss (http://sinonimayzer.ru/) - это парсер, синонимайзер, анализатор и оптимизатор теста, а также генератор сайтов в одном комплекте, за небольшие деньги.
aduru8789
На сайте с 21.11.2009
Offline
26
#5
offlajn:
Я сейчас дописываю программу, которая парсит контент (текст, картинки) на указанных сайтах между указанных меток, затем фильрует его и уникализирует на ходу алгоритмами "Бипод" и "М1pluss", картинки переименовывает как название новости.
Настроек много. но все интуитивно понятно, могу дать бесплатно вам для теста, все уже работает.

Дайте для теста

Siddhartha
На сайте с 14.08.2009
Offline
108
#6

ya-ya,

Посмотрю, спасибо.

На первый взгляд - сыровато.

Но это только на первый взгляд, после первой попытки поработать с вашей программой.

Сохраняет весь доступный контент, включая рисунки, swf и flv ?

offlajn,

Спасибо за предложение, с удовольствием посмотрю вашу программу.

Хотя, у меня немного предвзятое отношение к программам-многоцелевым-комбайнам. Именно из-за их размытого назначения. Как ваша программа работает с английским языком и форматами, что я указал выше?

YY
На сайте с 23.09.2009
Offline
32
#7

Siddhartha, сохранит то, что пропишешь в настройках (любое текстовое содержание со страницы).

Сохранять картинки, флэшки, видео не умеет. Даже не работал в этом направлении. Но ссылки на них запросто вытащит.

зы Предложения по улучшениям очень приветствуются. Желательно подробнее описывать, что нужно реализовать.

Siddhartha
На сайте с 14.08.2009
Offline
108
#8
ya-ya:
Siddhartha, сохранит то, что пропишешь в настройках (любое текстовое содержание со страницы).
Сохранять картинки, флэшки, видео не умеет. Даже не работал в этом направлении. Но ссылки на них запросто вытащит.

зы Предложения по улучшениям очень приветствуются. Желательно подробнее описывать, что нужно реализовать.

Ясно.

Мне недостаточно одного текста.

Что касается предложений и улучшений - мне нужно сейчас работать, а не ждать идеальной бесплатной программы.

Тем не менее, спасибо, что делаете бесплатный софт.

Возможно, есть ещё какие-либо варианты?

FL
На сайте с 03.02.2004
Offline
128
#9

Siddhartha, тогда попробуйте Visual Web Ripper

http://www.visualwebripper.com/

демо ролики на сайте, программу брать на нулледе или в личку стукнитесь.

Но в настройке весьма сложен.

Ещё есть Web Info Extractor

Rustamus
На сайте с 24.01.2010
Offline
110
#10

Однозначно рекомендую Content Downloader (сам пользуюсь):

1. Настраивается просто и под любой сайт, где нет защиты от прасинга

2. мегаадекватный автор (а значит и поддержка)

3. смешная цена - 800руб. (Кроме этого, возможно договориться с автором о скидке, если одновременно брать нескольким людям)

=> PoiskDonora.ru (Poiskdonora.ru): стань Бетменом - спаси чью-то жизнь! => Получайте посетителей Бесплатно (http://zalike.ru?/utm_source=searcheng&utm_campaign=podpis) Ежедневные обзоры (http://linkblink.ru/) самых интересных сайтов
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий