Акция. X-Parser Light парсер контента по списку ключевых слов

porh
На сайте с 14.06.2006
Offline
169
#131
ddiimmaa:
Парсер не по тегам парсит.

Можно ли самому указывать части кода, между которыми парсить текст?

N0
На сайте с 11.09.2010
Offline
126
#132
porh:
Можно ли самому указывать части кода, между которыми парсить текст?

Нет )

Дэмку скачайте, попробуйте. Он сам определяет тело статьи, в соответствии с настройками.

Есть фильтры: парсить/не парсить статьи/абзацы если содержит указанное

porh
На сайте с 14.06.2006
Offline
169
#133
Neo00007:
Нет )

Я тоже не нашел. Мне нужно из списка URL спарсить определенный текст, например, между <h2>... </h2>. Может быть, добавите возможность такой настройки?

N0
На сайте с 11.09.2010
Offline
126
#134
porh:
Мне нужно из списка URL спарсить определенный текст, например, между <h2>... </h2>.

Он может работать по списку урлов и парсить h заголовки в тексте.

А чтоб указывать конкретные блоки для парсинга это надо content downloader, datacol и т.п.

porh
На сайте с 14.06.2006
Offline
169
#135

Neo00007, Вы имеете отношение к разработчикам парсера?

N0
На сайте с 11.09.2010
Offline
126
#136
porh:
Neo00007, Вы имеете отношение к разработчикам парсера?

нет )

Но разработчик вряд ли будет делать парсинг по тэгам, не один раз спрашивали.

Другая концепция, другой софт.

master_jeday
На сайте с 15.05.2010
Offline
231
#137

Где в настрйоках убрать или повысить лимит на ошибку парсинга выдачи? Парсит из-под проксей и периодически часть отваливается. Поэтому после 5 неудачных попыток парсинг прерывается. Вот скрин https://yadi.sk/i/yScQlY_832fvJZ

Дорвеи на заказ с гарантией трафика ( /ru/forum/993918 ) >>> Осторожно, в телеге/скайпе есть клоны! Проверяйте, что общаетесь именно со мной через личку!
X-Software
На сайте с 31.01.2014
Offline
61
#138

Эта ошибка уже исправлена. Обновитесь. Связана была с тем, что в выдаче поисковой системы проскакивал ложный идентификатор капчи, ну а капчу софт не мог получить.

master_jeday
На сайте с 15.05.2010
Offline
231
#139
X-Software:
Эта ошибка уже исправлена. Обновитесь. Связана была с тем, что в выдаче поисковой системы проскакивал ложный идентификатор капчи, ну а капчу софт не мог получить.

Я пробовал на версии 2.0.7. Сейчас, смотрю, новее версии нет. Выходит, причина в чем-то другом. Писал на почту, можем пообщаться там.

По итогу, все то же самое https://yadi.sk/i/RnnypxYT32vJkx

X-Software
На сайте с 31.01.2014
Offline
61
#140

Если юзаете прокси, то могут быть просто забаненные прокси. Данный вопрос лучше обсудить лично, напишите мне на мыло, поищем причину.

Вышло обновление до версии 2.1.1. В ней сделано следующее:

1. Улучшено качество парсинга контента без разметки. Я ему как-то не уделял внимания особого, так как ни кто не просил, больше ориентировался на статьи. Теперь даже по самым неконтентным кеям собирается очень хороший и чистый контент.

2. Добавлен режим парсинга контента без разметки по одному предложению на строку, для доргенов.

3. Транслит парсера адаптирован под Pandorabox.

4. Исправлена ошибка сбора изображений: устранено влияние фильтра по длине абзаца на количество изображений в тексте.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий