TopperHarley

TopperHarley
Рейтинг
350
Регистрация
24.03.2009
Dofty:
Не хочу палить.
http://al-street.ru/foto-kak-sdelat-...svoimi-rukami/
Но не парсит вот так он.Как не ставлю маленькие куски какие то только выдает.
Глазами в выдаче статьи есть по ключам

Пофиксил в версии 4.1.1

Spiken:
а скидка будет новогодняя на ContentBox ?
alexcalt:
TopperHarley, скажи пожалуйста, будут ли скидки в декабре на пандору?

Скидок не планировал, пока не вижу в них необходимости. А вообще по таким вопросам лучше обращаться лично сразу в телеграмчик @topperharley2013

wplink:
Дня доброго форумчане подскажите как по скорости пандора, есть ли демка на сайте что-то не увидел.

Демка на сайте есть. В кнопке "Описание"

---------- Добавлено 06.12.2017 в 16:51 ----------

Dofty:
Не хочу палить.
http://al-street.ru/foto-kak-sdelat-...svoimi-rukami/
Но не парсит вот так он.Как не ставлю маленькие куски какие то только выдает.

Кстати тут по ссылке видно что идут сначала картинки стабильно. И после статьи идут. Это значит в шаблоне надо поставить так:

{REPEAT-3-3}{PUNIQBINGIMAGE}<img src="[SRC]" alt="[KEYWORD]" title="[KEYWORD]" style="width:200px" />{/PUNIQBINGIMAGE}{/REPEAT}

{CUTPREVIEW-2-3}[BINGFREEARTICLE]{/CUTPREVIEW}

{REPEAT-2-2}{PUNIQBINGIMAGE}<img src="[SRC]" alt="[KEYWORD]" title="[KEYWORD]" style="width:200px" />{/PUNIQBINGIMAGE}{/REPEAT}

Dofty:
Можешь еще сделать чтобы,записывало логи проекта при пакетке.Чтобы можно было запустить и продолжало работать?А то свет бывает рубят и тогда приходится заново парсить.
+В пакетке галочку удалять папки с дорвеями после архивировании.

Логи по проектам и так пишутся в папку data\logs

А насчет парсить повторно - КБ уже сохраняет в процессе парсинга примерно раз в минуту все что напарсил. После моргания света и загрузки компа парсинг продолжиться далее по еще не спаршенным ключам.

Статьи могу быть короткими в зависимости от тематики. Судя по скрину выше тематика - прон. Какие должны быть статьи по теме "сантехник шпилит озорную брюнетку видео"? Вряд ли будут высокохудожественные портянки текста.

Файл чистки вырезал всё.

Выделил красным на вики про файл чистки http://wiki.toppersoft.ru/ru/contentbox#парсинг-статей-с-разметкой

---------- Добавлено 02.12.2017 в 14:35 ----------

Dofty:
Что то ставишь 10тыс и парсит очень мало.

Логично. Если завышать требования то их сложно выполнить. Ты бы еще лимит статей в 10000000 знаков поставил.

Dofty:
И вставку между этой статьей картинок не возможно?

Насчет дополнения картинками и видео - можно попробовать между тегами, посмотрим как пойдет.

Dofty:
https://i.imgur.com/k79mv3z.png Вот как с картинками напарсило и подставило домен.

Это что? То как надо или то как не надо?

Dofty:
А когда выставляешь символов количество,как оно действует берет только с 1 страницы не добавляя с других?

Статью берет или выкидывает и ищет дальше в зависимости от параметра "мин. объем статьи"

Ап ContentBox 4.1

  • Поддержка парсинга статей с разметкой(beta). Ограничения и подробности на вики: http://wiki.toppersoft.ru/ru/contentbox#парсинг-статей-с-разметкой
  • Поправлен переход к следующему парсеру в комбопарсере текста
  • Добавлен параметр &lr= для парсера гугла
  • Удалена функция обхода капчи, так как перестала работать
  • Заменен движок эвристического поиска, работает быстрее на 30%
  • В браузере контента выбранный файл открывается в браузере по двойному щелчку
  • Багофиксы, оптимизация

Важно:

Перед применением парсинга с разметкой нужно прочитать http://wiki.toppersoft.ru/ru/contentbox#парсинг-статей-с-разметкой

Скачать: http://sup.toppersoft.ru/threads/contentbox-4-1.293/

ro--ot:
TopperHarley
LAP, парсятся имаги, сниппеты и статьи.
В пресете парсинга сниппетов можно настроить сохранение ссылок в отдельный файл, например links.txt, сохранение сниппетов останется по умолчанию.
Научи пожалуйста LAP проверять наличие файла links.txt, что бы не парсить повторно ссылки на статьи.
Ну и после парсинга статей links.txt надо удалить

Там нет порядка запуска парсеров и отслеживания завершения. Они независимы

Да и все время свободное уходит на ContentBox

Скоро будем парсить статьи с разметкой

seto:
Google.ST#6

видно что прокси не включены совсем.

Надо

1)дать файл проксей,

2)поставить тип проксей, например Auto

3)включить прокси в парсере Google

IBakalov:
Исключение Яндекс.Браузера в клоаке так и не запилили, хотя обещали.

не помню чтобы такое обещал, но если склероз, то вот делаем так:

Строчку

$bots_list = array("google", "yandex", "rambler", "mail.ru", "msn", "microsoft", "bing", "facebook");

замени на

$bots_list = array("google", "yandex", "rambler", "mail.ru", "msn", "microsoft", "bing", "facebook", "YaBrowser");

в файле cloaking.php в папке доргена

WEB-мастер:
А где ветка про пандорубокс, один контентбокс.

Тут ветка про пандору и про ContentBox

В пандоре за 9 лет уже все что нужно и не нужно для генерации запилили.

А в контентбокс еще есть куда рости. Скоро будет парсер статей с разметкой.

Ну и не стоит забывать что ContentBox без пандоры не работает, так что имеет непосредственное отношение к пандоре.

Вот тут был ап Пандоры 3 недели назад: /ru/forum/comment/15302849

Ну и тут такой еще момент что большая часть вопросов по пандоре уехала на форум поддержки пандоры.

seto:
16.11.17 19:55:05|Error|[Google.ST#256] [InvalidOperationException] reCAPTCHA detected, but AntiReCAPTCHA is not enabled, trying next proxy..

В парсере включить галочку "реКапча" можно

Либо больше проксей, пусть крутит прокси пока без рекапчи не найдет

Всего: 2916