MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов. - Страница 2 - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Вернуться   Форум об интернет-маркетинге > > >
Ответ
 
Опции темы
Старый 10.02.2018, 15:16   #11
Pegistrator
Академик
 
Аватар для Pegistrator
 
Регистрация: 23.01.2007
Сообщений: 1,032
Репутация: 32537
Отправить сообщение для Pegistrator с помощью ICQ Отправить сообщение для Pegistrator с помощью Skype™

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Что там есть новости?)
Pegistrator вне форума   Ответить с цитированием

Реклама
Старый 06.03.2018, 19:53   #12
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Почти всё сделал. Алгоритм полностью новый, основывается на анализе разметки. Очень хорошо парсит, со всеми тегами, таблицами, роликами и т.д. И при этом очень чисто, без всего лишнего.
Думаю, как быть со стилями элементов. Просто удалять их? Например, align картинок часто задаётся в css файле .leftimage{float: left;}, а в теге задаётся: <img class="leftimage">. При удалении class="leftimage" будет теряться расположение картинки.
__________________
jakodorgen.ru
JakoKruzo вне форума   Ответить с цитированием
Старый 07.03.2018, 18:11   #13
InterVlad
Дипломник
 
Регистрация: 16.07.2012
Сообщений: 70
Репутация: 3341
Отправить сообщение для InterVlad с помощью ICQ

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Буржунет парсит?
InterVlad вне форума   Ответить с цитированием
Старый 07.03.2018, 21:15   #14
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

InterVlad, да. На днях возобновлю продажу.
JakoKruzo вне форума   Ответить с цитированием
Старый 11.03.2018, 17:15   #15
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Цитата:
Сделайте возможность отключать парсинг видео, картинок в статью. Может я хочу просто тупо текст без всяких там кодов и тегов.
Сделал 3 режима: all, text, images.
Например, чтобы сохранять только картинки, нужно в файле настроек указать режим так:
*mode=images
Так теги картинок будут сохраняться целиком, в том виде, в котором они стоят на странице.
Можно указать свой формат:
*mode=images{<img src="[SRC]" alt="[ALT]">}
Кроме [SRC] и [ALT] ещё есть [KEY] и [ALTKEY]. [KEY] - выводит название статьи, а [ALTKEY] выводит alt или название статьи, если alt-а нет.
Чтобы сохранялся только текст, нужно указать режим так:
*mode=text

Цитата:
Было бы офиено, если бы парсер тянул статьи только с определенного раздела!
Сделал такую возможность. Например, чтобы статьи брались только из разделов decor/ и furniture/, надо указать сайт так:
sitename.ru*decor/*furniture/
При обходе страниц программа будет брать только статьи, в урлах которых есть указанные части.

Парсинг можно настраивать. В файле настроек можно указать, какие блоки оставлять, а какие удалять. Можно указать, какие атрибуты тегов оставлять. Пример файла настроек:

Можно включать-выключать парсинг роликов youtube, твитов, инстаграмма и прочих элементов.

Кроме ру тестил также на немецких и испанских сайтах. Получилось прямо то, что я давно хотел!

Новая цена - 2500 руб. ($44). Чтобы приобрести, пишите мне на JakoKruzo@mail.ru. Пишите сайты, спарсю для проверки.

P.S.
Для импорта в WordPress и другие движки есть специальные программы, такие как Цербер, Зеброид.
JakoKruzo вне форума   Ответить с цитированием
Старый 11.03.2018, 17:55   #16
Думка
оптимист со стажем...
 
Аватар для Думка
 
Регистрация: 07.03.2007
Адрес: Москва
Сообщений: 2,402
Репутация: 623753
Отправить сообщение для Думка с помощью Skype™
Социальные сети Страница в Одноклассниках Профиль в ВКонтакте

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сними видосов по настройке, парсингу, чтоб наглядно понимать что и как там нужно делать...
Думка вне форума   Ответить с цитированием
Старый 12.03.2018, 10:28   #17
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Думка, настраивать ничего не нужно. Скрин настроек я прикрепил просто для того, чтобы показать, что есть определённая гибкость.
JakoKruzo вне форума   Ответить с цитированием
Старый 13.03.2018, 13:15   #18
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Описание файла настроек:

1. *keyfilenames=1 - Статьи сохраняются в файлы с именами равными заголовкам статей. В качестве заголовка используется первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть. Если указать *keyfilenames=0, то имена будут вида: 13.03.2018-site.ru-18.txt.

2. *saveencoding=utf-8 - кодировка, в которой сохранять статьи.

3. *savetofolders=1 - для каждого сайта создаётся своя папка. *savetofolders=0 - все статьи будут сохраняться в папку articles.

4. *mode=all - режим. all - статья сохраняется целиком со всеми тегами, text - только текст, images - только картинки (выше я уже писал об этом).

5. *striplinks=1 - удалять теги ссылок, оставлять только анкор. *striplinks=0 - оставлять ссылки как есть.

6. *basicblocks=SPAN,OL,UL,TABLE,DIV - задаются базовые блоки. Не изменять!

7. *specialblocksdetect=instagram,twitter,youtube - обнаружение специальных блоков. Если внутри блока встречается указанный текст/код (один или более из перечисленных), то блок остаётся в неизменном виде.

8. *embedobjectsdetect=youtube.com/v/,youtube.com/embed,instagram.com/embed,twitter.com/widgets - работает так же, как и в предыдущем пункте, только для script, object, iframe. Нужно для определения кодов различных встраиваемых элементов (ролики, инстаграммы и прочее).

9. *keepattributes=style,src,align,alt,title,height,width,href - какие атрибуты тегов оставлять. Остальные удаляются.

10. *badblocksdetect=share{1000},подели,коммент... - работает как и specialblocksdetect, только не оставляет блоки, а удаляет. В фигурных скобках можно указывать максимальную длину блока, до которой делать проверку. По-умолчанию она равна 100. Например: share{1000} - значит, что если блок содержит слово share, и длина блока меньше 1000 символов, то удалять его.

11. *badlinksdetect= on,nofollow,share,data-pin - определение плохих ссылок. Если в теге ссылки содержится одна из перечисленных строк, то эта ссылка целиком удаляется.

12. *badlinkshrefdetect=#,script:,;,//disqus.com - работает так же, как и в предыдущем пункте, но проверяется вхождение в href. Т.е. если href ссылки содержит одну из стоп-строк, то ссылка удаляется.

13. *badlinksanchordetect=<div - работает так же, как и в предыдущем пункте, но проверяется вхождение в анкор.

14. *removeblocks=STYLE,noindex,map... - элементы (блочные и нет), которые сразу удаляются.

15. *remove=<P></P>,<P><BR></P>,<STRONG></STRONG>,<EM></EM> - то, что удалять. Если в статью попадает мусор, вносите его сюда.

Регистр не имеет значения. Не нужно перечислять <P></P>,<p></p>. Достаточно одного.
JakoKruzo вне форума   Ответить с цитированием
Сказали спасибо:
Старый 13.03.2018, 15:23   #19
igoreff
Статус-кво
 
Регистрация: 14.10.2008
Сообщений: 1,170
Репутация: 32918

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Приобрёл вчера данный парсер, всё отлично парсит в каком надо формате. Пробовал разные языки, текст чистый, если что и остается можно настроить через настройки, короче то что надо.
__________________
♔ Просто королевский профит ☛ Гемблинг ПП
$$$ Бурж CPA под сотни стран -Транзитки на всех языках.
igoreff вне форума   Ответить с цитированием
Старый 13.03.2018, 21:51   #20
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сделал обновление 2.0.1. Внёс мелкие правки.
В файле настроек теперь можно указывать user-agent и ограничение вложенности страниц:
*useragent=Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36
*pagenestinglimit=99


Когда я массово парсил сотни тысяч сайтов, то попадались такие, на которых парсинг зацикливался из-за неправильных ссылок. Чтобы такого не происходило, я ввёл ограничение на вложенность страниц. Например, если установить 5, то страницы с уровнем вложенности более 5 не будут парситься.
JakoKruzo вне форума   Ответить с цитированием
Ответ

Метки
parser , парсер , парсинг




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 20:24. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны