Описание файла настроек:
1. *keyfilenames=1 - Статьи сохраняются в файлы с именами равными заголовкам статей. В качестве заголовка используется первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть. Если указать *keyfilenames=0, то имена будут вида: 13.03.2018-site.ru-18.txt.
2. *saveencoding=utf-8 - кодировка, в которой сохранять статьи.
3. *savetofolders=1 - для каждого сайта создаётся своя папка. *savetofolders=0 - все статьи будут сохраняться в папку articles.
4. *mode=all - режим. all - статья сохраняется целиком со всеми тегами, text - только текст, images - только картинки (выше я уже писал об этом).
5. *striplinks=1 - удалять теги ссылок, оставлять только анкор. *striplinks=0 - оставлять ссылки как есть.
6. *basicblocks=SPAN,OL,UL,TABLE,DIV - задаются базовые блоки. Не изменять!
7. *specialblocksdetect=instagram,twitter,youtube - обнаружение специальных блоков. Если внутри блока встречается указанный текст/код (один или более из перечисленных), то блок остаётся в неизменном виде.
8. *embedobjectsdetect=youtube.com/v/,youtube.com/embed,instagram.com/embed,twitter.com/widgets - работает так же, как и в предыдущем пункте, только для script, object, iframe. Нужно для определения кодов различных встраиваемых элементов (ролики, инстаграммы и прочее).
9. *keepattributes=style,src,align,alt,title,height,width,href - какие атрибуты тегов оставлять. Остальные удаляются.
10. *badblocksdetect=share{1000},подели,коммент... - работает как и specialblocksdetect, только не оставляет блоки, а удаляет. В фигурных скобках можно указывать максимальную длину блока, до которой делать проверку. По-умолчанию она равна 100. Например: share{1000} - значит, что если блок содержит слово share, и длина блока меньше 1000 символов, то удалять его.
11. *badlinksdetect= on,nofollow,share,data-pin - определение плохих ссылок. Если в теге ссылки содержится одна из перечисленных строк, то эта ссылка целиком удаляется.
12. *badlinkshrefdetect=#,script:,;,//disqus.com - работает так же, как и в предыдущем пункте, но проверяется вхождение в href. Т.е. если href ссылки содержит одну из стоп-строк, то ссылка удаляется.
13. *badlinksanchordetect=<div - работает так же, как и в предыдущем пункте, но проверяется вхождение в анкор.
14. *removeblocks=STYLE,noindex,map... - элементы (блочные и нет), которые сразу удаляются.
15. *remove=<P></P>,<P><BR></P>,<STRONG></STRONG>,<EM></EM> - то, что удалять. Если в статью попадает мусор, вносите его сюда.
Регистр не имеет значения. Не нужно перечислять <P></P>,<p></p>. Достаточно одного.
Думка, настраивать ничего не нужно. Скрин настроек я прикрепил просто для того, чтобы показать, что есть определённая гибкость.
Сделал 3 режима: all, text, images.
Например, чтобы сохранять только картинки, нужно в файле настроек указать режим так:
*mode=images
Так теги картинок будут сохраняться целиком, в том виде, в котором они стоят на странице.
Можно указать свой формат:
*mode=images{<img src="[SRC]" alt="[ALT]">}
Кроме [SRC] и [ALT] ещё есть [KEY] и [ALTKEY]. [KEY] - выводит название статьи, а [ALTKEY] выводит alt или название статьи, если alt-а нет.
Чтобы сохранялся только текст, нужно указать режим так:
*mode=text
Сделал такую возможность. Например, чтобы статьи брались только из разделов decor/ и furniture/, надо указать сайт так:
sitename.ru*decor/*furniture/
При обходе страниц программа будет брать только статьи, в урлах которых есть указанные части.
Парсинг можно настраивать. В файле настроек можно указать, какие блоки оставлять, а какие удалять. Можно указать, какие атрибуты тегов оставлять. Пример файла настроек:
Можно включать-выключать парсинг роликов youtube, твитов, инстаграмма и прочих элементов.
Кроме ру тестил также на немецких и испанских сайтах. Получилось прямо то, что я давно хотел!
Новая цена - 2500 руб. ($44). Чтобы приобрести, пишите мне на JakoKruzo@mail.ru. Пишите сайты, спарсю для проверки.
P.S.
Для импорта в WordPress и другие движки есть специальные программы, такие как Цербер, Зеброид.
InterVlad, да. На днях возобновлю продажу.
Почти всё сделал. Алгоритм полностью новый, основывается на анализе разметки. Очень хорошо парсит, со всеми тегами, таблицами, роликами и т.д. И при этом очень чисто, без всего лишнего.
Думаю, как быть со стилями элементов. Просто удалять их? Например, align картинок часто задаётся в css файле .leftimage{float: left;}, а в теге задаётся: <img class="leftimage">. При удалении class="leftimage" будет теряться расположение картинки.
Мой скрипт через апи работает.
Ringozo, последний раз по 10 делал.
realcrimean, добавляю в яндекс вебмастер и addurl гугла.
Marbas, ваш скрипт к моему никакого отношения не имеет. Я читал описание вашего скрипта и взял из него названия success.csv, zone_errors.csv, dns_errors.csv, CloudflareImport, но сам скрипт я даже не скачивал. Это очень общие имена и то, что я их использую не значит, что я скопировал ваш код. Вы вообще смотрели код моего скрипта? Он даже не на php написан. Там всего две функции, которые напрямую используют API Cloudflare, и всё.
GlukVV, я регер не писал. Мне один человек регит своим софтом.