MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#21

sema_87, какими именно? Парсит все языки, в которых есть буквы, слова идут слева направо, а предложения заканчиваются точкой, вопросительным или восклицательным знаком.

iskrakovrov
На сайте с 17.12.2015
Offline
108
#22

А для, наверное, последних покупателей нескольких лицензий ЖакоДоргена скидки не предусмотрены?)))

Мощный софт для работы c Facebook https://soft.fbcombo.com . 4g Прокси Украина и США. телеграм iskrakovrov
JakoKruzo
На сайте с 04.06.2008
Offline
158
#23

iskrakovrov, скидок нет, т.к. продаю за половину от желаемой стоимости. Для такой уникальной программы (вот сколько я в seo, столько разговоров было об универсальном парсере, но так никто и не сделал) это вообще не цена.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#24

Сделал обновление 2.0.2. Улучшил очистку от мусора.

devkalion
На сайте с 03.02.2015
Offline
60
#25

Парсится в один файл? либо создаётся множество текстовых документов?

JakoKruzo
На сайте с 04.06.2008
Offline
158
#26

devkalion, каждая статья в отдельный файл.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#27

Сделал обновление 2.0.3. Добавил возможность парсинга сайтов в папках: site.ru/blog/.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#28

Денис Сарайкин, фишка в том, что мой парсер сам определяет начало и конец статьи, удаляет всё лишнее.

IT_DED
На сайте с 07.03.2007
Offline
236
#29

Думаю что всем интересно качество результата...

JakoKruzo, можно попросить выпарсить к примеру новости по данной ссылке...

https://news.google.com/news/search/section/q/seo/seo?hl=ru&gl=RU&ned=ru_ru

И выложить тут архивом.

Полагаюсь на порядочность и думаю что архив будет без доп обработки, т.е. как получится... и лучше с дефолтными настройками.

⭐ Все мои рекомендации тут - https://in.gl/itded
JakoKruzo
На сайте с 04.06.2008
Offline
158
#30

Думка, такой урл, как вы написали, указать нельзя. Программе нужно указывать список сайтов:

site1.ru
site2.ru*articles/
site3.ru/blog/
...

Для примера спарсил топ гугла по запросу "статьи о ремонте автомобилей" - http://jako.tech/download/stati-o-remonte-avtomobiley.zip

Ограничение в 300 страниц с сайта поставил. Два сайта не спарсились, видимо защита от ботов стоит, либо разметка с грубыми ошибками.

Лучше всего парсятся середняки. На мелких сайтах часты ошибки в разметке, а на крупных порталах обычно есть защита от ботов, либо всякие технические навороты, затрудняющие парсинг.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий