TopperHarley

TopperHarley
Рейтинг
350
Регистрация
24.03.2009

Это вопрос качества положительных маркеров.

Твоя логика заработает, если ты в маркеры добавишь фрагмент 1го результата парсинга. Получится BAD, который нужно повторить(маркеров то нету). Доп.попытки будут.

Если, наоборот, не включить фрагмент 1го результата парсинга в маркеры, то получится что страница по маркерам хорошая, а результатов нет, доп.попыток не будет.

kashim:
Странно, а как тогда обрабатывается ситуация, в которой прокся подменяет страницу на левую? Там ведь положительного маркера нет и спарсить нечего.

Чего странного то? Положительный должен быть. Если нет, то меняет проксю.

Нет положительного - меняет проксю. Будет BAD после всех попыток.

Есть положительный, но ниче не спарсилось, значит нет результатов по ключу - это BAD сразу.

Уже так работает

kashim:
Нет, я все же хочу маркер, наличие которого пропустит заведомо безуспешные попытки парсинга и сразу отправит ключ в BAD

Он и так сразу идет в BAD если положительных нет и ниче не спарсилось. Проверь по логу, не ошибаюсь ли я.

Если есть положительный маркер, то мы не меняем проксю, а парсим картинки, видим что картинок < нужного числа, например ноль. И ключ уходит в BAD.

Так что внедряя отрицательные маркеры ничего не изменится. Ключ также уйдет в BAD.

Маркеры нужны для управления попытками. То есть если маркера нет, то меняется прокся.

Может ты бы хотел юзая отрицательные маркеры менять проксю?

На другой проксе картинки появятся(у бинга так бывает) по этому же ключу?

Ап ContentBox 2.3.2

В юзерпарсерах можно задавать несколько обязательных маркеров через |

Рекомендую к вашим маркерам дополнительно добавить </html>, так как прокси часто отрезают результаты. Пример: http://i.imgur.com/XdpIfaA.png

Добавлен ярлык в списке плагинов в пандоре для быстрого вызова настроек ContentBox

---------- Добавлено 24.11.2016 в 23:42 ----------

ro--ot:
[APUNIQSNIP] сделай

Хорошо, сделаю

---------- Добавлено 25.11.2016 в 00:06 ----------

Кстати, как я говорил, на ContentBox для владельцев LinkAParser скидка миграции 50% до конца года.

И кстати причины перейти есть:

1. Парсит с гораздо меньшим числом бедов (такого не будет: http://pastebin.com/kCLVggbP)

2. Нагружает парсингом все ядра, поэтому парсит быстрее (не так: http://i.imgur.com/VVM40xy.png)

3. Парсинг снипетов идет в том же запросе, что и парсинг всего остального(меньше жрет сети/капчей/времени/т.д.)

4. Спаршенные данные сразу сохраняются на диск, поэтому никакой сбой не может пересрать долгий парсинг

5. Можно совмещать результаты парсинга разных ПС на 1 странице

6. Допарсинг текста идет страница за страницей по 1 странице, поэтому лишние данные не парсятся

7. Есть допарсинг картинок начиная с версии 2.3 (в LinkAParser нету)

8. BAD списки собираются по всем парсерам, не только по тексту

9. В планах: кластеризация запросов(уменьшение объема парсинга в несколько раз), парсинг по другому мультикею и т.д.

Ап ContentBox 2.3.1

Поддержка парсинга подсказок через юзерпарсеры. Пример настроек под Google: http://pastebin.com/NJfBBdSt

Доработана чистка доменов и ссылок в тексте и сниппетах

Добавить так:

Внести настройка http://pastebin.com/NJfBBdSt вот так:

Я ж не могу запретить форбидену продавать людям свой парсер )

Или повесить объявление на вход в интернет: не покупайте апарсер, а то я скоро свой парсер выпущу )

Первое сообщение про ContentBox было же не в версии 2.3, а наверно все таки в версии 1.0

Ап ContentBox 2.3

Листание страниц выдачи в парсерах картинок

Листание страниц выдачи в юзерпарсерах картинок и текста

Давай забудем на миг что ты - дорвейщик, а я - доргенщик.

Представляешь что было бы если бы (у бабушки был...) был способ генерить осмысленный текст?

Отпала бы необходимость прятать тексты клоакой(хотя прятали бы слив тока)

Представляешь какие ПФ были бы?

Серчер читал бы инфу про то как правильно купить виагры онлайн, ну или там увеличить причандал свой)

Серчер был бы счастлив + соответственно ПС была бы счастлива + как следствие вебмастер был бы счастлив

В идеале увлекательный текст с помощью ИИ должен склонять серчера в действию, в котором заинтересован вебмастер

---------- Добавлено 20.11.2016 в 01:56 ----------

Еще ссылок в тему.

Женя Густман - это имя, данное программе, которая в 14 году смогла пройти тест тюринга, то есть убедить судей(не всех) что эта программа - человек.

А вот интервью с этой программой :

https://interpreted.dirty.ru/perevod-moia-beseda-s-evgeniem-gustmanom-chat-botom-o-kotorom-vo-vsekh-novostiakh-govoriat-kak-o-proshedshem-test-tiuringa-686981/

Я прочитал с огромным удовольствием.

Правда из интервью становится понятно, что судьи, по всей видимости, были наркоманами.

Всего: 2916