Комментарии - JakoKruzo - Профиль вебмастера - Форум об интернет-маркетинге

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

22 марта 2018, 16:57

Сделал обновление 2.0.4.

Теперь можно получать данные из мета-тегов. Например:

Макрос выводящий ключевые слова - [ARTICLE_META_KEYWORDS]

Описание - [ARTICLE_META_DESCRIPTION]

Можно значения любых мета-тегов выводить. Например:

[ARTICLE_META_og:title]

[ARTICLE_META_og:url]

[ARTICLE_META_twitter:title]

[ARTICLE_META_twitter:description]

Ещё сделал, чтобы можно было указывать страницу сайта, с которой начинать обход сайта: site.ru/folder/page.html. В этом примере будут парситься только страницы в папке folder. Чтобы парсились все страницы, надо добавить к урлу {NOT_ROOT}: site.ru/folder/page.html{NOT_ROOT}.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

19 марта 2018, 10:24

eN_Slon, раскрывать алгоритм я не буду. Скажу только, что сначала я пытался делать парсинг отталкиваясь от блоков текста, но многие статьи, в которых много различных вставок, парсились не целиком. Поэтому я решил пойти другим путём, отталкиваясь от разметки, и сейчас я считаю, что мой алгоритм оптимальный для большинства сайтов.

Больше кривых нежели валидных.

Кривых много, но правильных большинство. Тем более, имеют значения только грубые ошибки, нарушающие иерархию блоков.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

19 марта 2018, 09:28

Думка, такой урл, как вы написали, указать нельзя. Программе нужно указывать список сайтов:

site1.ru
site2.ru*articles/
site3.ru/blog/
...

Для примера спарсил топ гугла по запросу "статьи о ремонте автомобилей" - http://jako.tech/download/stati-o-remonte-avtomobiley.zip

Ограничение в 300 страниц с сайта поставил. Два сайта не спарсились, видимо защита от ботов стоит, либо разметка с грубыми ошибками.

Лучше всего парсятся середняки. На мелких сайтах часты ошибки в разметке, а на крупных порталах обычно есть защита от ботов, либо всякие технические навороты, затрудняющие парсинг.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

18 марта 2018, 11:15

Денис Сарайкин, фишка в том, что мой парсер сам определяет начало и конец статьи, удаляет всё лишнее.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

18 марта 2018, 10:25

Сделал обновление 2.0.3. Добавил возможность парсинга сайтов в папках: site.ru/blog/.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

17 марта 2018, 14:25

devkalion, каждая статья в отдельный файл.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

17 марта 2018, 14:06

Сделал обновление 2.0.2. Улучшил очистку от мусора.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

14 марта 2018, 09:29

iskrakovrov, скидок нет, т.к. продаю за половину от желаемой стоимости. Для такой уникальной программы (вот сколько я в seo, столько разговоров было об универсальном парсере, но так никто и не сделал) это вообще не цена.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

13 марта 2018, 19:21

sema_87, какими именно? Парсит все языки, в которых есть буквы, слова идут слева направо, а предложения заканчиваются точкой, вопросительным или восклицательным знаком.

MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

13 марта 2018, 18:51

Сделал обновление 2.0.1. Внёс мелкие правки.

В файле настроек теперь можно указывать user-agent и ограничение вложенности страниц:

*useragent=Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36
*pagenestinglimit=99

Когда я массово парсил сотни тысяч сайтов, то попадались такие, на которых парсинг зацикливался из-за неправильных ссылок. Чтобы такого не происходило, я ввёл ограничение на вложенность страниц. Например, если установить 5, то страницы с уровнем вложенности более 5 не будут парситься.

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

JakoKruzo