MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов. - Страница 4 - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Вернуться   Форум об интернет-маркетинге > > >
Ответ
 
Опции темы
Старый 19.03.2018, 12:28   #31
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Думка, такой урл, как вы написали, указать нельзя. Программе нужно указывать список сайтов:
site1.ru
site2.ru*articles/
site3.ru/blog/
...


Для примера спарсил топ гугла по запросу "статьи о ремонте автомобилей" - http://jako.tech/download/stati-o-re...vtomobiley.zip
Ограничение в 300 страниц с сайта поставил. Два сайта не спарсились, видимо защита от ботов стоит, либо разметка с грубыми ошибками.
Лучше всего парсятся середняки. На мелких сайтах часты ошибки в разметке, а на крупных порталах обычно есть защита от ботов, либо всякие технические навороты, затрудняющие парсинг.
__________________
jakodorgen.ru
JakoKruzo вне форума   Ответить с цитированием

Реклама
Старый 19.03.2018, 12:46   #32
eN_Slon
Репутация: 777777 (бинго)
 
Аватар для eN_Slon
 
Регистрация: 13.02.2007
Адрес: Острова Кука
Сообщений: 1,592
Репутация: 509339
Отправить сообщение для eN_Slon с помощью ICQ Отправить сообщение для eN_Slon с помощью Skype™

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Опишите алгоритм получения статьи.
Защиты и т.п. - это бутафория с большего. Просто добавите потом проксятину и реальные браузеры.

---------- Добавлено 19.03.2018 в 12:53 ----------

Цитата:
Сообщение от JakoKruzo Посмотреть сообщение
либо разметка с грубыми ошибками.
если у вас обязательное условие - распарсить DOM, то большинство сайтов ваш софт не возьмет. Больше кривых нежели валидных.


ЗЫ. интересуюсь не из комерческого интереса. Когда то эту задачу изучал просто.
__________________
Парсинг, граббинг, автоматизация всего что вы можете сделать в браузере(и не только) сами.
Любое кол-во, любые защиты.
eN_Slon вне форума   Ответить с цитированием
Старый 19.03.2018, 13:24   #33
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

eN_Slon, раскрывать алгоритм я не буду. Скажу только, что сначала я пытался делать парсинг отталкиваясь от блоков текста, но многие статьи, в которых много различных вставок, парсились не целиком. Поэтому я решил пойти другим путём, отталкиваясь от разметки, и сейчас я считаю, что мой алгоритм оптимальный для большинства сайтов.
Цитата:
Больше кривых нежели валидных.
Кривых много, но правильных большинство. Тем более, имеют значения только грубые ошибки, нарушающие иерархию блоков.
JakoKruzo вне форума   Ответить с цитированием
Старый 22.03.2018, 19:57   #34
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сделал обновление 2.0.4.
Теперь можно получать данные из мета-тегов. Например:
Макрос выводящий ключевые слова - [ARTICLE_META_KEYWORDS]
Описание - [ARTICLE_META_DESCRIPTION]

Можно значения любых мета-тегов выводить. Например:

[ARTICLE_META_og:title]
[ARTICLE_META_og:url]
[ARTICLE_META_twitter:title]
[ARTICLE_META_twitter:description]

Ещё сделал, чтобы можно было указывать страницу сайта, с которой начинать обход сайта: site.ru/folder/page.html. В этом примере будут парситься только страницы в папке folder. Чтобы парсились все страницы, надо добавить к урлу {NOT_ROOT}: site.ru/folder/page.html{NOT_ROOT}.
JakoKruzo вне форума   Ответить с цитированием
Сказали спасибо 2 пользователей:
Старый 26.03.2018, 18:22   #35
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сделал обновление 2.0.5.
В дополнение к {NOT_ROOT} сделал возможность указывать корневую папку: {ROOT:/}. Например, входная страница https://www.site.ru/blog/articles/index.php , а нужно, чтобы парсились статьи не только из /blog/articles/, а со всей папки /blog/. Тогда указывать сайт надо так: https://www.site.ru/blog/articles/index.php{ROOT:/blog/}

Внёс изменения позволяющие парсить web.archive.org.
Сайт указывать так: http://web.archive.org/web/20171004194426/https://www.site.ru/
Веб-архив подставляет ко всем урлам на сайте свой урл: http://web.archive.org/web/20171004194426/https://www.site.ru/page.html
Чтобы урл веб-архива удалялся, надо в settings.txt указать *urlinurl=1
Так от вышеуказанного урла останется только https://www.site.ru/page.html
Это работает не только с урлами веб-архива, но и со всеми урлами вида: http://site1.ru/folder/http://site2.ru.
JakoKruzo вне форума   Ответить с цитированием
Сказали спасибо:
Старый 28.03.2018, 14:35   #36
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Сделал обновление 2.0.6.
Добавил возможность загрузки файлов изображений с заменой урлов в тегах. Для этого в settings.txt укажите:
*downloadimages=all{images,100,100}
В фигурных скобках указывается имя папки, в которую сохранять изображения, минимальная ширина и высота. Если изображение не скачалось, либо ширина или длина меньше минимального значения, то тег этого изображения удаляется из статьи.
Чтобы загружались только изображения находящиеся на том же домене, что и сайт (не хотлинкинг), надо указать так:
*downloadimages=host{images,100,100}

Чтобы у картинок в src путь начинался со слеша, указываем так:
*downloadimages=all{/images,100,100}

Добавил возможность сохранения логов обхода сайта:
*logs=1

Если вдруг какой-то сайт не парсится, можно посмотреть какие данные присылает сервер.
JakoKruzo вне форума   Ответить с цитированием
Старый 28.03.2018, 17:35   #37
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Как спарсить сайты из веб-архива по списку.
Укажите сайты так:
http://web.archive.org/web/20300920134653/site1.com/
http://web.archive.org/web/20300920134653/site2.com/
http://web.archive.org/web/20300920134653/site3.com/

...

Дата в урле не имеет значения. Например, я указываю 2030 год: 20300920134653. Веб-архив автоматически перенаправляет на существующие даты.
JakoKruzo вне форума   Ответить с цитированием
Старый 28.04.2018, 12:17   #38
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Инструкции:
http://jako.tech/docs/MassArticleParser.rtf
http://jako.tech/docs/MassArticleParser-ENG.rtf
JakoKruzo вне форума   Ответить с цитированием
Старый 01.05.2018, 23:10   #39
XPraptor
WebMonster
 
Аватар для XPraptor
 
Регистрация: 15.10.2004
Адрес: Minsk
Сообщений: 2,813
Репутация: 194019

По умолчанию Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Цитата:
Сообщение от JakoKruzo Посмотреть сообщение
раскрывать алгоритм я не буду
Чего его скрывать то, это стандартный свободный код boilerpipe.
http://boilerpipe-web.appspot.com/ - абсолютно бесплатно и для многих языков есть плагины.
Конечно, лучше полную версию на питоне юзать, но огрызок под php тоже справляется со многими сайтами на ура.
XPraptor вне форума   Ответить с цитированием
Старый 02.05.2018, 15:01   #40
JakoKruzo
SEO programming
 
Аватар для JakoKruzo
 
Регистрация: 04.06.2008
Сообщений: 598
Репутация: 58907

ТопикСтартер Re: MassArticleParser - массовый парсинг статей. Один парсер для всех сайтов.

Цитата:
это стандартный свободный код boilerpipe.
Нет, я не использовал каких-либо сторонних разработок.
JakoKruzo вне форума   Ответить с цитированием
Ответ

Метки
parser , парсер , парсинг




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 23:13. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны