MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов. - Страница 5 - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Вернуться   Форум об интернет-маркетинге > > >
Ответ
 
Опции темы
Старый 24.05.2018, 17:24   #41
Mrtrick
Аспирант
 
Регистрация: 04.10.2013
Сообщений: 140
Репутация: 7519

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Купил парсер, очень удобный, с задачей справляется, дергаю текстовку для доров.

Возникли вопросы, автор, к сожалению, проигнорировал почту, либо не заметил.

Пишу здесь свои вопросы
1: Например, мой шаблон выглядит так
[ARTICLE_TITLE] – заголовок страницы.

[ARTICLE_H] – первый заголовок H.

[ARTICLE_BODY] – сама статья.

В случае если одно из условий шаблона не соответствует сайту, например отсутствует на доноре H тег, статья пропустится или сохранится?

2: Паршу в 20 потоков, после того как спарсилось, допустим 18 сайтов, остается только 2 активных потока, может стоит переходить в таком случае к следующим сайтам, чтобы были задействованы все потоки?


3: Внутри директории Articles куда отправляется материал, не хватает подразделов с тематиками, например, мне нужно спарсить кулинарию, я добавил список сайтов в sites.txt, либо указывать в программе путь до текстовика с сайтами и самое важное, чтобы в директории Articles создалась директория с названием тематики, например если кулинарию, то уже в этой директории весь материал, а то так каша получается.
__________________
Здесь дейтинг со смартлинком, все гео
Mrtrick вне форума   Ответить с цитированием

Реклама
Старый 25.05.2018, 11:29   #42
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 603
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

1. Тег заменится ничем.
2. Всегда задействуются все потоки. Если все сайты спарсены, но остаются несколько долгоработающих потоков, то вы можете остановить их через "STOP ALL" или "ABORT".
3. Могу сделать. Вы так сайт указываете: sitename.ru*decor/*furniture/ ?
__________________
jakodorgen.ru
JakoKruzo вне форума   Ответить с цитированием
Сказали спасибо:
Старый 25.05.2018, 16:53   #43
Mrtrick
Аспирант
 
Регистрация: 04.10.2013
Сообщений: 140
Репутация: 7519

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Цитата:
1. Тег заменится ничем.
2. Всегда задействуются все потоки. Если все сайты спарсены, но остаются несколько долгоработающих потоков, то вы можете остановить их через "STOP ALL" или "ABORT".
3. Могу сделать. Вы так сайт указываете: sitename.ru*decor/*furniture/ ?
1. Не понял о чем вы, еще раз спрашиваю, если мой шаблон

[ARTICLE_TITLE] – заголовок страницы.

[ARTICLE_H] – первый заголовок H.

[ARTICLE_BODY] – сама статья.

Бывает, что на сайте только TITLE, статья сохранится только с татйлом? Или пропустится до статьи где будут условия шаблона соблюдены (заголовок, H, сама статья)?

2. Извиняюсь, тупанул, с потоками нет проблем

3. Я паршу все с домена, т.е просто указываю домен
Mrtrick вне форума   Ответить с цитированием
Старый 13.06.2018, 23:37   #44
cinquefoil2014
Кандидат наук
 
Регистрация: 13.02.2015
Адрес: Москва
Сообщений: 347
Репутация: 3726
Отправить сообщение для cinquefoil2014 с помощью Skype™
Социальные сети Профиль в ВКонтакте

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

А мне интересно, потом это контент, что напарсили, автоматом заливать на WP Допустим можно?
cinquefoil2014 вне форума   Ответить с цитированием
Старый 16.06.2018, 12:17   #45
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 603
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Цитата:
Бывает, что на сайте только TITLE, статья сохранится только с татйлом? Или пропустится до статьи где будут условия шаблона соблюдены (заголовок, H, сама статья)?
Если текста статьи нет, то ничего в файл не сохранится. Но я могу сделать, чтобы сохранялись все.

Цитата:
Я паршу все с домена, т.е просто указываю домен
В таком случае раскладывать статьи по тематике не получится.

Цитата:
А мне интересно, потом это контент, что напарсили, автоматом заливать на WP Допустим можно?
Для этого есть специальные программы, например Зеброид, Цербер.
JakoKruzo вне форума   Ответить с цитированием
Сказали спасибо:
Старый 05.08.2018, 17:46   #46
Mrtrick
Аспирант
 
Регистрация: 04.10.2013
Сообщений: 140
Репутация: 7519

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Можно ли считать версию 2.0.6 финальным релизом?
Mrtrick вне форума   Ответить с цитированием
Старый 13.08.2018, 22:58   #47
lestatar
Дипломник
 
Регистрация: 21.01.2013
Сообщений: 55
Репутация: -7378
Социальные сети Профиль в ВКонтакте

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

а парсить тексты по списку страниц будет возможнность?
lestatar вне форума   Ответить с цитированием
Старый 14.08.2018, 17:44   #48
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 603
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Цитата:
Можно ли считать версию 2.0.6 финальным релизом?
2.0.6 актуальная версия. Будут обновления, пишите пожелания.

Цитата:
а парсить тексты по списку страниц будет возможнность?
Да, завтра сделаю обновление.

Ещё сделаю, чтобы программа заходила в robots.txt и не парсила страницы, которые закрыты от индексации, чтобы меньше мусора было. Кто-то просил уже давно об этом.
JakoKruzo вне форума   Ответить с цитированием
Старый 15.08.2018, 21:53   #49
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 603
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сделал обновление 2.0.7.

Новое в настройках:
*parsemainpage=0 - сохранять ли контент с главной (входной) страницы
*donotsaveurls=0 - не сохранять url-ы
*savetoonefile=0 - сохранять все статьи в один файл
*allowemptyarticles=0 - сохранять статьи с околонулевой длиной
*checkrobotsfile=0 - не парсить страницы, которые закрыты от индексации в robots.txt
1 - да (вкл), 0 - нет (выкл).

1. Сделал возможность парсить статьи по списку страниц. В settings.txt указать:
*pagenestinglimit=0
*parsemainpage=1
*donotsaveurls=1

pagenestinglimit задаётся равным 0, чтобы парсилась только входная (первая) страница.
parsemainpage включает сохранение контента с входной страницы.
donotsaveurls отключает сохранение урлов в папку urls. В таком режиме они не нужны.
В sites.txt просто указываем список урлов.

2. Чтобы программа проверяла robots.txt и не парсила страницы, которые закрыты от индексации, нужно указать *checkrobotsfile=1

3. Чтобы отключить сохранение урлов: *donotsaveurls=1

4. Сохранение всех статей в один файл: *savetoonefile=1

5. Сохранение статьи даже при нулевой длине: *allowemptyarticles=1
Это нужно, например, если вы хотите спарсить только заголовки страниц, но самих статей на странице программа не находит (если сайт не статейник, а, например, интернет-магазин). Раньше программа не сохраняла файлы, если длина статьи была меньше 70 символов.

6. Запуск с командной строки: передайте программе через точку с запятой параметры: Threads(кол-во потоков);Link limit(ограничение обхода ссылок);Do not update thread list(не обновлять список потоков)
Пример: 5;999999;0

7. Исправлена ошибка со слешами в урле при сохранении вне папок.

Скачивать обновление по ссылке, которую я давал при покупке. Замените старый файл MassArticleParser.exe новым и добавьте в settings.txt новые настройки (необязательно):
*parsemainpage=0
*donotsaveurls=0
*savetoonefile=0
*allowemptyarticles=0
*checkrobotsfile=0

Последний раз редактировалось JakoKruzo; 15.08.2018 в 22:19..
JakoKruzo вне форума   Ответить с цитированием
Старый 17.08.2018, 22:37   #50
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 603
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сделал обновление 2.0.8.

1. Исправил ошибку с режимом images (макросы не всегда правильно заменялись): *mode=images{<img src="[SRC]" alt="[ALT]">}

2. Встроил в программу свой интерпретатор скрипта из JakoDorgen-а. Это даёт возможность обработки статей перед сохранением. Можно, например, удалять какой-то мусор, вставлять в статью свои ссылки, добавлять кеи и т.д.
Скрипт, который исполняется для каждого потока парсинга в файле thread_events.txt. Общий скрипт в файле events.txt.

thread_events.txt

Перед тем, как сохранить статью, программа выполняет функцию on_Save. Сама статья находится в переменной $output. Так, например, можно перевести весть текст в верхний регистр:
function on_Save(){
$output=strtoupper($output);
}


Функция on_Start выполняется перед началом парсинга сайта.
Функция on_Complete выполняется по завершению парсинга сайта (error=0, если ошибок нет, и error=1, если есть, или в случае остановки парсинга пользователем).
Функция on_Error выполняется при возникновении ошибки в работе скрипта.
Готовые переменные:
$app_path - путь к парсеру
$article_dir - папка, в которую сохраняются статьи
$image_dir - папка, в которую сохраняются файлы изображений
$site_url - урл сайта, который парсится
$page_number - номер страницы, которая парсится
$page_count - кол-во найденных страниц сайта (меняется при нахождении новых)
$page_url - урл страницы, которая парсится
$page_data - html-код страницы, которая парсится
$site_number - номер сайта, который парсится
$thread_number - номер потока в котором сайт парсится

Есть две специальные функции:
1. stopthread(error); - останавливает парсинг. stopthread(1); - остановка с ошибкой (статус парсинга будет Error), stopthread(0); - остановка без ошибки (как будто парсинг завершился успешно сам).
2. reparsepage(); - указывает, что страницу нужно спарсить ещё раз. Т.е. дальше будет парситься не следующая страница, а эта же.


events.txt

При запуске программы выполняется функция on_Programm_Start.
При нажатии кнопки "START" выполняется функция on_Parsing_Start.
При остановке парсинга кнопкой "STOP ALL" выполняется функция on_Parsing_Stop.
При завершении парсинга всех сайтов выполняется функция on_Parsing_Complete. paused=1, если была нажата "PAUSE", и paused=0, если нет.
Функция on_Error выполняется при возникновении ошибки в работе скрипта.
Готовые переменные:
$app_path - путь к парсеру

Чтобы включить скриптинг, нужно в settings.txt установить: *scripting=1

Список всех функций - http://jako.tech/docs/MassArticlePar...-Functions.txt

Замените старый файл MassArticleParser.exe новым и скопируйте два новых файла: thread_events.txt и events.txt.
Есть вопросы по скриптингу? Пишите мне на JakoKruzo@mail.ru.
Ещё буду подробнее писать про скрипт.
JakoKruzo вне форума   Ответить с цитированием
Ответ

Метки
parser , парсер , парсинг




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 12:47. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны