Комментарии - JakoKruzo - Профиль вебмастера - Форум об интернет-маркетинге

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

13 марта 2018, 10:15

Описание файла настроек:

1. *keyfilenames=1 - Статьи сохраняются в файлы с именами равными заголовкам статей. В качестве заголовка используется первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть. Если указать *keyfilenames=0, то имена будут вида: 13.03.2018-site.ru-18.txt.

2. *saveencoding=utf-8 - кодировка, в которой сохранять статьи.

3. *savetofolders=1 - для каждого сайта создаётся своя папка. *savetofolders=0 - все статьи будут сохраняться в папку articles.

4. *mode=all - режим. all - статья сохраняется целиком со всеми тегами, text - только текст, images - только картинки (выше я уже писал об этом).

5. *striplinks=1 - удалять теги ссылок, оставлять только анкор. *striplinks=0 - оставлять ссылки как есть.

6. *basicblocks=SPAN,OL,UL,TABLE,DIV - задаются базовые блоки. Не изменять!

7. *specialblocksdetect=instagram,twitter,youtube - обнаружение специальных блоков. Если внутри блока встречается указанный текст/код (один или более из перечисленных), то блок остаётся в неизменном виде.

8. *embedobjectsdetect=youtube.com/v/,youtube.com/embed,instagram.com/embed,twitter.com/widgets - работает так же, как и в предыдущем пункте, только для script, object, iframe. Нужно для определения кодов различных встраиваемых элементов (ролики, инстаграммы и прочее).

9. *keepattributes=style,src,align,alt,title,height,width,href - какие атрибуты тегов оставлять. Остальные удаляются.

10. *badblocksdetect=share{1000},подели,коммент... - работает как и specialblocksdetect, только не оставляет блоки, а удаляет. В фигурных скобках можно указывать максимальную длину блока, до которой делать проверку. По-умолчанию она равна 100. Например: share{1000} - значит, что если блок содержит слово share, и длина блока меньше 1000 символов, то удалять его.

11. *badlinksdetect= on,nofollow,share,data-pin - определение плохих ссылок. Если в теге ссылки содержится одна из перечисленных строк, то эта ссылка целиком удаляется.

12. *badlinkshrefdetect=#,script:,;,//disqus.com - работает так же, как и в предыдущем пункте, но проверяется вхождение в href. Т.е. если href ссылки содержит одну из стоп-строк, то ссылка удаляется.

13. *badlinksanchordetect=<div - работает так же, как и в предыдущем пункте, но проверяется вхождение в анкор.

14. *removeblocks=STYLE,noindex,map... - элементы (блочные и нет), которые сразу удаляются.

15. *remove=, ,, - то, что удалять. Если в статью попадает мусор, вносите его сюда.

Регистр не имеет значения. Не нужно перечислять ,. Достаточно одного.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

12 марта 2018, 07:28

Думка, настраивать ничего не нужно. Скрин настроек я прикрепил просто для того, чтобы показать, что есть определённая гибкость.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

11 марта 2018, 14:15

Сделайте возможность отключать парсинг видео, картинок в статью. Может я хочу просто тупо текст без всяких там кодов и тегов.

Сделал 3 режима: all, text, images.

Например, чтобы сохранять только картинки, нужно в файле настроек указать режим так:

*mode=images

Так теги картинок будут сохраняться целиком, в том виде, в котором они стоят на странице.

Можно указать свой формат:

*mode=images{<img src="[SRC]" alt="[ALT]">}

Кроме [SRC] и [ALT] ещё есть [KEY] и [ALTKEY]. [KEY] - выводит название статьи, а [ALTKEY] выводит alt или название статьи, если alt-а нет.

Чтобы сохранялся только текст, нужно указать режим так:

*mode=text

Было бы офиено, если бы парсер тянул статьи только с определенного раздела!

Сделал такую возможность. Например, чтобы статьи брались только из разделов decor/ и furniture/, надо указать сайт так:

sitename.ru*decor/*furniture/

При обходе страниц программа будет брать только статьи, в урлах которых есть указанные части.

Парсинг можно настраивать. В файле настроек можно указать, какие блоки оставлять, а какие удалять. Можно указать, какие атрибуты тегов оставлять. Пример файла настроек:

Можно включать-выключать парсинг роликов youtube, твитов, инстаграмма и прочих элементов.

Кроме ру тестил также на немецких и испанских сайтах. Получилось прямо то, что я давно хотел!

Новая цена - 2500 руб. ($44). Чтобы приобрести, пишите мне на JakoKruzo@mail.ru. Пишите сайты, спарсю для проверки.

P.S.

Для импорта в WordPress и другие движки есть специальные программы, такие как Цербер, Зеброид.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

7 марта 2018, 18:15

InterVlad, да. На днях возобновлю продажу.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

6 марта 2018, 16:53

Почти всё сделал. Алгоритм полностью новый, основывается на анализе разметки. Очень хорошо парсит, со всеми тегами, таблицами, роликами и т.д. И при этом очень чисто, без всего лишнего.

Думаю, как быть со стилями элементов. Просто удалять их? Например, align картинок часто задаётся в css файле .leftimage{float: left;}, а в теге задаётся: <img class="leftimage">. При удалении class="leftimage" будет теряться расположение картинки.

Скрипт импорта доменов в Cloudflare

27 февраля 2018, 17:18

Мой скрипт через апи работает.

Скрипт импорта доменов в Cloudflare

17 февраля 2018, 19:26

Ringozo, последний раз по 10 делал.

Скрипт импорта доменов в Cloudflare

17 февраля 2018, 15:05

realcrimean, добавляю в яндекс вебмастер и addurl гугла.

Скрипт импорта доменов в Cloudflare

10 февраля 2018, 16:05

Marbas, ваш скрипт к моему никакого отношения не имеет. Я читал описание вашего скрипта и взял из него названия success.csv, zone_errors.csv, dns_errors.csv, CloudflareImport, но сам скрипт я даже не скачивал. Это очень общие имена и то, что я их использую не значит, что я скопировал ваш код. Вы вообще смотрели код моего скрипта? Он даже не на php написан. Там всего две функции, которые напрямую используют API Cloudflare, и всё.

Скрипт импорта доменов в Cloudflare

10 февраля 2018, 14:26

GlukVV, я регер не писал. Мне один человек регит своим софтом.

Курс биткоина превысил $50 тысяч

Что делать, если ваша email-рассылка попала в спам

JakoKruzo