Дорген PandoraBox - вопросы и ответы + апдейты. Часть 2

TopperHarley
На сайте с 24.03.2009
Offline
350
#371

Ап ContentBox 2.3.2

В юзерпарсерах можно задавать несколько обязательных маркеров через |

Рекомендую к вашим маркерам дополнительно добавить </html>, так как прокси часто отрезают результаты. Пример: http://i.imgur.com/XdpIfaA.png

Добавлен ярлык в списке плагинов в пандоре для быстрого вызова настроек ContentBox

---------- Добавлено 24.11.2016 в 23:42 ----------

ro--ot:
[APUNIQSNIP] сделай

Хорошо, сделаю

---------- Добавлено 25.11.2016 в 00:06 ----------

Кстати, как я говорил, на ContentBox для владельцев LinkAParser скидка миграции 50% до конца года.

И кстати причины перейти есть:

1. Парсит с гораздо меньшим числом бедов (такого не будет: http://pastebin.com/kCLVggbP)

2. Нагружает парсингом все ядра, поэтому парсит быстрее (не так: http://i.imgur.com/VVM40xy.png)

3. Парсинг снипетов идет в том же запросе, что и парсинг всего остального(меньше жрет сети/капчей/времени/т.д.)

4. Спаршенные данные сразу сохраняются на диск, поэтому никакой сбой не может пересрать долгий парсинг

5. Можно совмещать результаты парсинга разных ПС на 1 странице

6. Допарсинг текста идет страница за страницей по 1 странице, поэтому лишние данные не парсятся

7. Есть допарсинг картинок начиная с версии 2.3 (в LinkAParser нету)

8. BAD списки собираются по всем парсерам, не только по тексту

9. В планах: кластеризация запросов(уменьшение объема парсинга в несколько раз), парсинг по другому мультикею и т.д.

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
kashim
На сайте с 12.09.2012
Offline
68
#372
TopperHarley:
Ап ContentBox 2.3.2
В юзерпарсерах можно задавать несколько обязательных маркеров через |
Рекомендую к вашим маркерам дополнительно добавить </html>, так как прокси часто отрезают результаты. Пример: http://i.imgur.com/XdpIfaA.png

Еще было бы хорошо добавить отрицательный маркер: Отправить ключ в BAD при наличии: "кусок разметки"

Получится следующая логика: отсутствие положительного маркера - сигнал на повторение запроса, а наличие отрицательного - отказаться от парсинга.

What's the difference between religion and bullshit? The bull.
TopperHarley
На сайте с 24.03.2009
Offline
350
#373

Если есть положительный маркер, то мы не меняем проксю, а парсим картинки, видим что картинок < нужного числа, например ноль. И ключ уходит в BAD.

Так что внедряя отрицательные маркеры ничего не изменится. Ключ также уйдет в BAD.

Маркеры нужны для управления попытками. То есть если маркера нет, то меняется прокся.

Может ты бы хотел юзая отрицательные маркеры менять проксю?

На другой проксе картинки появятся(у бинга так бывает) по этому же ключу?

kashim
На сайте с 12.09.2012
Offline
68
#374
TopperHarley:
Может ты бы хотел юзая отрицательные маркеры менять проксю?
На другой проксе картинки появятся(у бинга так бывает) по этому же ключу?

Нет, я все же хочу маркер, наличие которого пропустит заведомо безуспешные попытки парсинга и сразу отправит ключ в BAD

TopperHarley
На сайте с 24.03.2009
Offline
350
#375
kashim:
Нет, я все же хочу маркер, наличие которого пропустит заведомо безуспешные попытки парсинга и сразу отправит ключ в BAD

Он и так сразу идет в BAD если положительных нет и ниче не спарсилось. Проверь по логу, не ошибаюсь ли я.

kashim
На сайте с 12.09.2012
Offline
68
#376
TopperHarley:
Он и так сразу идет в BAD если положительных нет и ниче не спарсилось. Проверь по логу, не ошибаюсь ли я.

Странно, а как тогда обрабатывается ситуация, в которой прокся подменяет страницу на левую? Там ведь положительного маркера нет и спарсить нечего.

TopperHarley
На сайте с 24.03.2009
Offline
350
#377
kashim:
Странно, а как тогда обрабатывается ситуация, в которой прокся подменяет страницу на левую? Там ведь положительного маркера нет и спарсить нечего.

Чего странного то? Положительный должен быть. Если нет, то меняет проксю.

Нет положительного - меняет проксю. Будет BAD после всех попыток.

Есть положительный, но ниче не спарсилось, значит нет результатов по ключу - это BAD сразу.

Уже так работает

kashim
На сайте с 12.09.2012
Offline
68
#378

Теперь ясно.

Просто я в своем парсере, регулярку для парсинга и маркер с одного места взял. Получается, что повторять запрос будет, пока не кончатся попытки.

---------- Добавлено 25.11.2016 в 19:53 ----------

TopperHarley:

Есть положительный, но ниче не спарсилось, значит нет результатов по ключу - это BAD сразу.

Выглядит ненадежно все равно. Прямого подтверждения на отсутствие результатов по ключу ведь нет.

TopperHarley
На сайте с 24.03.2009
Offline
350
#379

Это вопрос качества положительных маркеров.

Твоя логика заработает, если ты в маркеры добавишь фрагмент 1го результата парсинга. Получится BAD, который нужно повторить(маркеров то нету). Доп.попытки будут.

Если, наоборот, не включить фрагмент 1го результата парсинга в маркеры, то получится что страница по маркерам хорошая, а результатов нет, доп.попыток не будет.

TopperHarley
На сайте с 24.03.2009
Offline
350
#380

Ап ContentBox 2.3.3

Парсеры картинок умеют фильтровать дубли, фича включается в настройках

Добавлен список [SKIPLIST] пропуска указанных доменов при парсинге текста и картинок

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий