Хочу купить универсальный парсер. Подскажите, какой?

120

Siddhartha

24 июля 2010, 20:27

2164

Добрый день.

У меня есть потребность в относительно универсальном парсере контента.

Что я под этим понимаю:

Это программное решение - не важно, desktop или скрипт - способное спарсить контент(текст, рисунки и пр.) в указанных мной диапазонах с указанной мной структурой, по определённым правилам. И сохранить результат в виде html, txt и пр. соответствующего содержимого.

Хм.

Достаточно размытое описание вышло.

Но думаю, те, кто пользуются подобными решениями меня сразу поймут.

Идеальный вариант - Bget, но 2.5k я пока за него не готов отдать.

Возможно, уважаемое сообщество подскажет что-либо подходящее за относительно приемлемые деньги?

FL

128

FreeLancer

24 июля 2010, 20:33

#1

Siddhartha:
Идеальный вариант - Bget

он прекрасно парсит и сохраняет по 500 позиций. После этого выгружаете их в файл и очищаете резалт. Запускаете парсинг - он добирает ещё 500, сохраняете в ТОТ ЖЕ файл (дописывая) и так по кругу

120

Siddhartha

24 июля 2010, 20:41

#2

FreeLancer:
он прекрасно парсит и сохраняет по 500 позиций. После этого выгружаете их в файл и очищаете резалт. Запускаете парсинг - он добирает ещё 500, сохраняете в ТОТ ЖЕ файл (дописывая) и так по кругу

Вот-вот.

Я как представлю - правила настроил, и ушел спать на всю ночь.. А к утру вся wikipedia :) у меня на рабочем столе в html.

Красота.

Именно из-за такой возможной автоматизации я и создал этот топик.

Тем более, что я использую лишь малую часть возможностей Bget.

Вы пользуетесь только Bget, или совмещаете с чем-то ещё?

Представьте, что нужно спарсить сто тысяч статей. Как вы это сделаете ?

YY

32

ya-ya

24 июля 2010, 20:45

#3

ТС, попробуй заюзать мой бесплатный. все подробности на блоге в подписи.

зы - читай комменты.

O

37

offlajn

24 июля 2010, 20:47

#4

Я сейчас дописываю программу, которая парсит контент (текст, картинки) на указанных сайтах между указанных меток, затем фильрует его и уникализирует на ходу алгоритмами "Бипод" и "М1pluss", картинки переименовывает как название новости.

Настроек много. но все интуитивно понятно, могу дать бесплатно вам для теста, все уже работает.

M1pluss (http://sinonimayzer.ru/) - это парсер, синонимайзер, анализатор и оптимизатор теста, а также генератор сайтов в одном комплекте, за небольшие деньги.

26

aduru8789

24 июля 2010, 21:00

#5

offlajn:
Я сейчас дописываю программу, которая парсит контент (текст, картинки) на указанных сайтах между указанных меток, затем фильрует его и уникализирует на ходу алгоритмами "Бипод" и "М1pluss", картинки переименовывает как название новости.
Настроек много. но все интуитивно понятно, могу дать бесплатно вам для теста, все уже работает.

Дайте для теста

120

Siddhartha

24 июля 2010, 21:02

#6

ya-ya,

Посмотрю, спасибо.

На первый взгляд - сыровато.

Но это только на первый взгляд, после первой попытки поработать с вашей программой.

Сохраняет весь доступный контент, включая рисунки, swf и flv ?

offlajn,

Спасибо за предложение, с удовольствием посмотрю вашу программу.

Хотя, у меня немного предвзятое отношение к программам-многоцелевым-комбайнам. Именно из-за их размытого назначения. Как ваша программа работает с английским языком и форматами, что я указал выше?

YY

32

ya-ya

24 июля 2010, 21:09

#7

Siddhartha, сохранит то, что пропишешь в настройках (любое текстовое содержание со страницы).

Сохранять картинки, флэшки, видео не умеет. Даже не работал в этом направлении. Но ссылки на них запросто вытащит.

зы Предложения по улучшениям очень приветствуются. Желательно подробнее описывать, что нужно реализовать.

Нарушения и угрозы безопасности Яндекс Директ реализовал возможность Редирект устаревших беклинков интернет-магазина:

120

Siddhartha

24 июля 2010, 21:21

#8

ya-ya:
Siddhartha, сохранит то, что пропишешь в настройках (любое текстовое содержание со страницы).
Сохранять картинки, флэшки, видео не умеет. Даже не работал в этом направлении. Но ссылки на них запросто вытащит.

зы Предложения по улучшениям очень приветствуются. Желательно подробнее описывать, что нужно реализовать.

Ясно.

Мне недостаточно одного текста.

Что касается предложений и улучшений - мне нужно сейчас работать, а не ждать идеальной бесплатной программы.

Тем не менее, спасибо, что делаете бесплатный софт.

Возможно, есть ещё какие-либо варианты?

FL

128

FreeLancer

24 июля 2010, 22:34

#9

Siddhartha, тогда попробуйте Visual Web Ripper

http://www.visualwebripper.com/

демо ролики на сайте, программу брать на нулледе или в личку стукнитесь.

Но в настройке весьма сложен.

Ещё есть Web Info Extractor

110

Rustamus

25 июля 2010, 06:17

#10

Однозначно рекомендую Content Downloader (сам пользуюсь):

1. Настраивается просто и под любой сайт, где нет защиты от прасинга

2. мегаадекватный автор (а значит и поддержка)

3. смешная цена - 800руб. (Кроме этого, возможно договориться с автором о скидке, если одновременно брать нескольким людям)

=> PoiskDonora.ru (Poiskdonora.ru): стань Бетменом - спаси чью-то жизнь! => Получайте посетителей Бесплатно (http://zalike.ru?/utm_source=searcheng&utm_campaign=podpis) Ежедневные обзоры (http://linkblink.ru/) самых интересных сайтов

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, если ваша email-рассылка попала в спам