Альтернативный DLE Граббер

[Удален]
#11

Мануал по установке и так далее нормальный имеется?

Я бы купил, но сайтов у меня много.

G
На сайте с 21.10.2009
Offline
2
#12

У меня на сайте стоял какой то граббер но он грабил только с 1 сайта не больше 5-10 новостей а ваш грабер сколько может за раз сграбить новостей?

Новый высокооплачиваемый файлообменник (http://turbobit.net/partner/?PHPSESUD=5A3EA1D1680CF0B129E2440785E85449) Лучший хостинг разрешает адалт сайты (http://wmz-host.ru/pl.php?2642) Зарабатывай на ссылках 120р за 1000 переходов (http://ssylka.net/306)
Sergey Gr.
На сайте с 21.10.2008
Offline
48
#13
Znamensk:
Мануал по установке и так далее нормальный имеется?
Я бы купил, но сайтов у меня много.

Да, к дистрибутиву прилагается пошаговый мануал. Все конфиги подробно закомментированы. Если хотите, могу выложить сюда код главного конфигурационного файла.

У меня на сайте стоял какой то граббер но он грабил только с 1 сайта не больше 5-10 новостей а ваш грабер сколько может за раз сграбить новостей?

За раз - сколько угодно:

1) Награбленные новости добавляются в хэш, и, даже, если произошел сбой, - достаточно указать заного весь диапазон страниц, а скрипт сам разберется, что уже скачал, а что осталось

2) Дабы не нагружать сильно сервер, получение и добавление происходит частями, можно указать паузу (полезно, если на сайте-источнике стоит анти-флуд защита)

Кто хочет протестировать демо версию - пишите в PM или в ICQ.

Sergey Gr.
На сайте с 21.10.2008
Offline
48
#14

Рад сообщить о выходе новой версии. Вот список нововведений:

  • Улучшен механизм синонимизации текста, в частности, превью и полную часть новости можно синонимизировать разными базами;
  • Добавлен новый модуль (а также визуальный компонент к нему) для уникализации текста с помощью Google Translate;
  • Добавлен драйвер для движка LiveStreet;
  • Добавлен драйвер для движка Joomla;
  • Добавлен драйвер, сохраняющий новости в текстовые файлы;
  • Добавлен модуль для тумбирования больших картинок на уровне html-кода;
  • Добавлен модуль для замены текста (по точным совпадениям или по шаблонам);
  • Добавлена возможность сохранения списка последних спарсенных сайтов;
  • Добавлена возможность использования прокси-сервера для парсинга новостей;
  • Все регулярные выражения, отвечающие за парсинг источника, - вынесены в отдельный конфиг и документированы, благодаря чему данный скрипт можно адаптировать под сайты, ранее не поддерживаемые;*

А также многое другое... В скором времени, цена на скрипт будет увеличина - так что торопитесь : - )

---------------------------------------------------------------------------------------

P.S. Как и прежде, все обновления - бесплатны!

* - техническая поддержка по конфигурации данной библиотеки не предоставляется.

alukart
На сайте с 23.08.2007
Offline
58
#15

а с какой скоростью он добавляет новости?

тоесть сколько он может спарсить страниц за 1 час (+загрузка фоток на свой сервак +накладка на них водяной знак) при условии что у меня есть свой сервак ?

к примеру DLE Grabber Private V9.2 может сграбить за час где то несколько тысяч.

Sergey Gr.
На сайте с 21.10.2008
Offline
48
#16
alukart:
а с какой скоростью он добавляет новости?
тоесть сколько он может спарсить страниц за 1 час (+загрузка фоток на свой сервак +накладка на них водяной знак) при условии что у меня есть свой сервак ?

к примеру DLE Grabber Private V9.2 может сграбить за час где то несколько тысяч.

Это зависит от мощности сервера и качества его интернет-соединения. Сами новости будут парситься не медленнее, по поводу парсинга с опциональными функциями (загрузка картинок, наложение водяного знака) сказать не могу.

В настоящий момент перерабатывается ядро скрипта, новая версия будет работать быстрее, правильно считывать большее количество шаблонов, а также читать DLE сайты, на которых отключен ЧПУ. Обновление я планирую закончить в течении недели.

Если хотите взглянуть на демо версию текущей версии - напишите в ICQ или в PM.

alukart
На сайте с 23.08.2007
Offline
58
#17

хм...собственно данный скрипт дал друг.... установил себе на комп (денвер) и на сервак

парсинг очень медленный на сервере реально МЕДЛЕННЫЙ примерно сотня в час - непонятно почему

а главное на денвере вообще что то непонятное то он делает тоесть спарсились 3 страницы (наблюдаю по кешу) и модем молчит тоесть не качает потом еще 5 спарсится и сново молчок

что это таке или какие то непонятные настройки скрипта? возможно чтобы он без всяких лимитов парсил тоесть как можно быстрее? в конфиге вроде бы все лимиты обрубил

вот код конфига


<?php if (!defined('GRABBER_VERSION')) { echo "Greetings!"; exit(); }

// Режим граббера:
// pack - пакетный режим;
// classic - классический режим;
// Описание режимов смотрите в документации (ReadMe.txt);
$grabber_mode='classic';


// Имя используемого драйвера (например, demo.php);
// Описание и конфиг драйвера смотрите внутри его библиотеки;
$dDriverName='dle7x.php';


// !!! Параметр используется только в ПАКЕТНОМ режиме работы !!!
// Автоматическое удаление пакета после использования;
$dUnlinkPackage=true;


// Ограничение количества одновременных запросов;
// Ограничение необходимо в случае, если на dle-сайте стоит анти-спам защита
// или на вашем сервере отключена функция set_time_limit(0), позволяющая
// не ограничивать время выполнения скрипта (в этом случае будет вылетать ошибка 403 Forbidden);
// Присвойте параметру значение '0', чтобы отключить ограничение;
$request_limits='0';

// Интервал таймера автоматической переадресации;
// на продолжение парсинга (при включенной опции request_limits);
// Указывается миллисекундах (1с = 1000 мс);
// Присвойте параметру значение '0', чтобы отключить автоматическую переадресацию;
$request_timer_interval='0';


// Количество одновременно добавляемых новостей;
// (не рекомендуется устанавливать большое значение, т.к. серверу это может не понравится)
// Присвойте параметру значение '0', чтобы отключить ограничение;
$dRequiestLimit='0';

// Интервал таймера автоматической переадресации
// на продолжение добавления новостей (при включенной опции $dRequiestLimit);
// Указывается миллисекундах (1с = 1000 мс);
// Присвойте параметру значение '0', чтобы отключить автоматическую переадресацию;
// ПРИМЕЧАНИЕ: при работе с демо-драйвером, данный параметр игнорируется;
$limit_timer_interval='0';


// !!! Параметр используется только в КЛАССИЧЕСКОМ режиме работы !!!
// Интервал таймера автоматической переадресации
// на начало добавления новостей;
// Указывается в секундах в диапазоне [0; 1000];
// Присвойте параметру значение false, чтобы отключить автоматическую переадресацию;
// РЕКОМЕНДУЕТСЯ отключить автоматическую переадресацию, т.к. на пропускаемой странице
// содержится служебная информация: перечень выбранных новостей и их проверка инструментом pack_checker;
$classic_check_interval='0';


// Проверка новости на уникальность перед размещением;
$dUnique_check=true;


// Случайная дата размещения;
$dRandom_date=false;

// Диапазон разброса времени в секундах (ОТ) [-9999999; 9999999];
$dRandom_min='-5000';

// Диапазон разброса времени в секундах (ДО) [-9999999; 9999999];
$dRandom_max='0';


// Кодировка соединения с базой данных;
// (если ее устанавливать не требуется, присвойте параметру значение false);
// (обычно, дальше вариантов cp1251, UTF8 и false - дело не заходит);
$dCharset='cp1251';


// Замещение стандартной формы ввода ID категории вашего сайта
// на действующий список категорий вашего сайта.
// ПРИМЕЧАНИЕ:
// 1. Граббер должен располагаться непосредственно на сервере сайта;
// 2. Используемый драйвер должен поддерживать данную функцию;
$dMySmartyCategory=true;


// Количество спарсенных сайтов, хранимых в истории [1; 10000]
// Присвойте параметру значение false, чтобы отключить эту функцию;
// ПРИМЕЧАНИЕ: История хранится в текстовом файле history.txt,
// для этого файла должны быть права (CHMOD) на запись (777);
$dParseHistory='100';


// Прокси сервер
// например: 127.0.0.1:80
// Присвойте параметру false, если прокси-соединение не требуется
$dProxy=false;

// Логин:пароль прокси сервера
// например: login:password
// Присвойте параметру false, если прокси-соединение не требует авторизации
$dProxy_rec=false;


?>
Sergey Gr.
На сайте с 21.10.2008
Offline
48
#18
хм...собственно данный скрипт дал друг.... установил себе на комп (денвер) и на сервак
парсинг очень медленный на сервере реально МЕДЛЕННЫЙ примерно сотня в час - непонятно почему
а главное на денвере вообще что то непонятное то он делает тоесть спарсились 3 страницы (наблюдаю по кешу) и модем молчит тоесть не качает потом еще 5 спарсится и сново молчок
что это таке или какие то непонятные настройки скрипта? возможно чтобы он без всяких лимитов парсил тоесть как можно быстрее? в конфиге вроде бы все лимиты обрубил
вот код конфига

Вот и первый публичный прецедент. Передача скрипта третьим лицам запрещена. Видимо, придеться обсуфицировать код и ставить ограничительные лицензии.

alukart
На сайте с 23.08.2007
Offline
58
#19
Sergey Gr.:
Вот и первый публичный прецедент. Передача скрипта третьим лицам запрещена. Видимо, придеться обсуфицировать код и ставить ограничительные лицензии.

ну а по тому что я вас спросил как? скрипт работает довольно сильно медленно(

Sergey Gr.
На сайте с 21.10.2008
Offline
48
#20
alukart:
ну а по тому что я вас спросил как? скрипт работает довольно сильно медленно(

Техническая поддержка доступна только для клиентов. По поводу скорости - вы правы. Новая версия будет работать значительно быстрее, если интересно, могу дать ссылку на бета версию.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий