Butterfly 3 - Новый бесплатный парсер каталогов, сайтов и поисковых систем

V
На сайте с 17.01.2012
Offline
0
7022

Прошу оценить новый парсер поисковой выдачи, написанный мной :), и оставить сдесь комментарии. Парсит любой поисковик. Прошу строго не судить.

Предыдущие версии программы работали только с Google и отбирали только DLE сайты. Версия же 3.0 более универсальна, потому захотел знать мнение сдесь присудствующих, дабы узнать мнение потребителя и учесть его в будущем.

Вообщем Butterfly 3.0 - Десктопная программа, прячущаяся в трей.

Для парсинга нужно выбрать из списка профиль нужного поисковика. Ввести ключевые слова (или указать файл с ключевыми словами), при необходимости выбрать профиль фильтрации ссылок и нажать кнопку "Искать".

Программа начнет парсинг, и если включена фильтрация, будет заходить на найденный сайт, проверять условия фильтрации и возвращать результат: проходит ли ссылка отбор или нет.

Все найденные и отобранные ссылки программа будет тут же сохранять в указанный заранее файл.

Имеется возможность не парсить поисковик, а брать базу сайтов из файла и поддавать фильтрации по указанному условию.

Кроме того пользователь сам может изменять или добавлять новые профили парсинга поисковиков и отбора.

В стандартную поставку включаются 11 готовых профилей фильтрации:

Отбор сайтов на Bitrix

Отбор сайтов на DLE

Отбор сайтов на DLE (отбор реализованый в Butterfly 2)

Отбор сайтов на Drupal

Отбор сайтов на Joomla

Отбор сайтов на MaxSite

Отбор сайтов на phpBB

Отбор сайтов на UCOZ

Отбор сайтов на WordPress

Отбор бесплатных и открытых торент трекеров

Без отбора (сохранение всех найденных сайтов)

Каждый профиль отбора можно настроить следующим образом:

1. Указать фрагменты текста, которые обязательно должны быть в тексте страницы (например: "фрагмент1 И фрагмент2 ИЛИ фрагмент3 И фрагмент2 И фрагмент4")

2. Указать фрагменты текста, которые обязательно не должны быть в тексте страницы.

То есть мы имеем белый и черный список условий (конечно же один из них можно не заполнять).

И если страничка удовлетворяет черному и белому списку - сайт будет отобран.

Каждый "Вариант" - это список условий. Для успешного отбора должен выполнятся как минимум один вариант условий (и все условия данного варианта).

То есть мы имеем "Вариант1 ИЛИ Вариант2 ИЛИ ...".

Каждое условие - это текст, который должен быть (или не должен быть, если это черный список) в коде страницы.

Если выполняются все условия варианта, то выполняется и вариант - а значит и фильтр не отбросит сайт. То есть для условий мы имеем "Условие1 ИЛИ Условие2 ИЛИ ..."

Фильтры можна настраивать как угодно. Каждый фильтр - это отдельный INI-файл, который можно скопировать и принести (например) на работу.

Скачать можно с офф. сайта.

S
На сайте с 01.10.2009
Offline
59
#1

А урлы страниц нельзя парсить? только домены удается получать?

а так шустро аккуратно, спасибо

V
На сайте с 17.01.2012
Offline
0
#2
seregagrankin:
А урлы страниц нельзя парсить? только домены удается получать?
а так шустро аккуратно, спасибо

Программа отсекает урлы и получает домены.

Думаю включу даную опцию (получать урлы а не домены) в следующей минорной версии :)

kuzenstudio
На сайте с 20.09.2009
Offline
160
#3

Отлично, большое спасибо за прогу. Я так понял, "Профили отбора" можно самому дописывать, под свои нужды ?

Пожелания:

Нельзя ли сделать после сбора, проверку на тиц и количество стр в поисковиках ?

Качественный и не дорогой датский хостинг (https://gigahost.com.ru/e?ref=kuzenstudio).
V
На сайте с 17.01.2012
Offline
0
#4
kuzenstudio:
Отлично, большое спасибо за прогу. Я так понял, "Профили отбора" можно самому дописывать, под свои нужды ?
Пожелания:
Нельзя ли сделать после сбора, проверку на тиц и количество стр в поисковиках ?

Можно и профили отбора, и добавлять новые профили поисковиков, каталогов и всего чего угодно.

Проверка на тиц пока в будущем. Кстате на вкладке апраметров есть "Количество проверок". Установите его небольшое, не больше 50, и запустив поиск по яндексу получите сылки с высоким ТИЦ. При этом для каждого ключевого слова программа будет отбирать только первые 50 ссылок, а они имеют высокий тиц, так как они ведь первые :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий