- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева

Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Ап ContentBox 2.3.2
В юзерпарсерах можно задавать несколько обязательных маркеров через |
Рекомендую к вашим маркерам дополнительно добавить </html>, так как прокси часто отрезают результаты. Пример: http://i.imgur.com/XdpIfaA.png
Добавлен ярлык в списке плагинов в пандоре для быстрого вызова настроек ContentBox
---------- Добавлено 24.11.2016 в 23:42 ----------
[APUNIQSNIP] сделай
Хорошо, сделаю
---------- Добавлено 25.11.2016 в 00:06 ----------
Кстати, как я говорил, на ContentBox для владельцев LinkAParser скидка миграции 50% до конца года.
И кстати причины перейти есть:
1. Парсит с гораздо меньшим числом бедов (такого не будет: http://pastebin.com/kCLVggbP)
2. Нагружает парсингом все ядра, поэтому парсит быстрее (не так: http://i.imgur.com/VVM40xy.png)
3. Парсинг снипетов идет в том же запросе, что и парсинг всего остального(меньше жрет сети/капчей/времени/т.д.)
4. Спаршенные данные сразу сохраняются на диск, поэтому никакой сбой не может пересрать долгий парсинг
5. Можно совмещать результаты парсинга разных ПС на 1 странице
6. Допарсинг текста идет страница за страницей по 1 странице, поэтому лишние данные не парсятся
7. Есть допарсинг картинок начиная с версии 2.3 (в LinkAParser нету)
8. BAD списки собираются по всем парсерам, не только по тексту
9. В планах: кластеризация запросов(уменьшение объема парсинга в несколько раз), парсинг по другому мультикею и т.д.
Ап ContentBox 2.3.2
В юзерпарсерах можно задавать несколько обязательных маркеров через |
Рекомендую к вашим маркерам дополнительно добавить </html>, так как прокси часто отрезают результаты. Пример: http://i.imgur.com/XdpIfaA.png
Еще было бы хорошо добавить отрицательный маркер: Отправить ключ в BAD при наличии: "кусок разметки"
Получится следующая логика: отсутствие положительного маркера - сигнал на повторение запроса, а наличие отрицательного - отказаться от парсинга.
Если есть положительный маркер, то мы не меняем проксю, а парсим картинки, видим что картинок < нужного числа, например ноль. И ключ уходит в BAD.
Так что внедряя отрицательные маркеры ничего не изменится. Ключ также уйдет в BAD.
Маркеры нужны для управления попытками. То есть если маркера нет, то меняется прокся.
Может ты бы хотел юзая отрицательные маркеры менять проксю?
На другой проксе картинки появятся(у бинга так бывает) по этому же ключу?
Может ты бы хотел юзая отрицательные маркеры менять проксю?
На другой проксе картинки появятся(у бинга так бывает) по этому же ключу?
Нет, я все же хочу маркер, наличие которого пропустит заведомо безуспешные попытки парсинга и сразу отправит ключ в BAD
Нет, я все же хочу маркер, наличие которого пропустит заведомо безуспешные попытки парсинга и сразу отправит ключ в BAD
Он и так сразу идет в BAD если положительных нет и ниче не спарсилось. Проверь по логу, не ошибаюсь ли я.
Он и так сразу идет в BAD если положительных нет и ниче не спарсилось. Проверь по логу, не ошибаюсь ли я.
Странно, а как тогда обрабатывается ситуация, в которой прокся подменяет страницу на левую? Там ведь положительного маркера нет и спарсить нечего.
Странно, а как тогда обрабатывается ситуация, в которой прокся подменяет страницу на левую? Там ведь положительного маркера нет и спарсить нечего.
Чего странного то? Положительный должен быть. Если нет, то меняет проксю.
Нет положительного - меняет проксю. Будет BAD после всех попыток.
Есть положительный, но ниче не спарсилось, значит нет результатов по ключу - это BAD сразу.
Уже так работает
Теперь ясно.
Просто я в своем парсере, регулярку для парсинга и маркер с одного места взял. Получается, что повторять запрос будет, пока не кончатся попытки.
---------- Добавлено 25.11.2016 в 19:53 ----------
Есть положительный, но ниче не спарсилось, значит нет результатов по ключу - это BAD сразу.
Выглядит ненадежно все равно. Прямого подтверждения на отсутствие результатов по ключу ведь нет.
Это вопрос качества положительных маркеров.
Твоя логика заработает, если ты в маркеры добавишь фрагмент 1го результата парсинга. Получится BAD, который нужно повторить(маркеров то нету). Доп.попытки будут.
Если, наоборот, не включить фрагмент 1го результата парсинга в маркеры, то получится что страница по маркерам хорошая, а результатов нет, доп.попыток не будет.
Ап ContentBox 2.3.3
Парсеры картинок умеют фильтровать дубли, фича включается в настройках
Добавлен список [SKIPLIST] пропуска указанных доменов при парсинге текста и картинок