Сделал обновление 2.0.4.
Теперь можно получать данные из мета-тегов. Например:
Макрос выводящий ключевые слова - [ARTICLE_META_KEYWORDS]
Описание - [ARTICLE_META_DESCRIPTION]
Можно значения любых мета-тегов выводить. Например:
[ARTICLE_META_og:title]
[ARTICLE_META_og:url]
[ARTICLE_META_twitter:title]
[ARTICLE_META_twitter:description]
Ещё сделал, чтобы можно было указывать страницу сайта, с которой начинать обход сайта: site.ru/folder/page.html. В этом примере будут парситься только страницы в папке folder. Чтобы парсились все страницы, надо добавить к урлу {NOT_ROOT}: site.ru/folder/page.html{NOT_ROOT}.
eN_Slon, раскрывать алгоритм я не буду. Скажу только, что сначала я пытался делать парсинг отталкиваясь от блоков текста, но многие статьи, в которых много различных вставок, парсились не целиком. Поэтому я решил пойти другим путём, отталкиваясь от разметки, и сейчас я считаю, что мой алгоритм оптимальный для большинства сайтов.
Кривых много, но правильных большинство. Тем более, имеют значения только грубые ошибки, нарушающие иерархию блоков.
Думка, такой урл, как вы написали, указать нельзя. Программе нужно указывать список сайтов:
site1.rusite2.ru*articles/site3.ru/blog/...
Для примера спарсил топ гугла по запросу "статьи о ремонте автомобилей" - http://jako.tech/download/stati-o-remonte-avtomobiley.zip
Ограничение в 300 страниц с сайта поставил. Два сайта не спарсились, видимо защита от ботов стоит, либо разметка с грубыми ошибками.
Лучше всего парсятся середняки. На мелких сайтах часты ошибки в разметке, а на крупных порталах обычно есть защита от ботов, либо всякие технические навороты, затрудняющие парсинг.
Денис Сарайкин, фишка в том, что мой парсер сам определяет начало и конец статьи, удаляет всё лишнее.
Сделал обновление 2.0.3. Добавил возможность парсинга сайтов в папках: site.ru/blog/.
devkalion, каждая статья в отдельный файл.
Сделал обновление 2.0.2. Улучшил очистку от мусора.
iskrakovrov, скидок нет, т.к. продаю за половину от желаемой стоимости. Для такой уникальной программы (вот сколько я в seo, столько разговоров было об универсальном парсере, но так никто и не сделал) это вообще не цена.
sema_87, какими именно? Парсит все языки, в которых есть буквы, слова идут слева направо, а предложения заканчиваются точкой, вопросительным или восклицательным знаком.
Сделал обновление 2.0.1. Внёс мелкие правки.
В файле настроек теперь можно указывать user-agent и ограничение вложенности страниц:
*useragent=Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 *pagenestinglimit=99
Когда я массово парсил сотни тысяч сайтов, то попадались такие, на которых парсинг зацикливался из-за неправильных ссылок. Чтобы такого не происходило, я ввёл ограничение на вложенность страниц. Например, если установить 5, то страницы с уровнем вложенности более 5 не будут парситься.