annaov

Рейтинг
54
Регистрация
17.06.2017

Сейчас расскажу )

Мне нужна, как раз, структура всего сайта (чтобы потом фильтры корректно и определить, на капитальный выборочный проход), которая, уже и бывает полностью определяема, при прохождении его большей части (90%). При этом, обработка ссылок, на этом этапе, может быть завершена только на 60% (но эта самая быстрая, по времени, часть), и в памяти готовых уже есть добавочные 30%, плюс в очереди, около 10% еще, судя по угасанию процесса, примерно будут зацеплены.
Вот только, завершение остаточной этой части, может занять в 2-3 раза больше времени, чем прохождение первых 60% (допустим, 3 дня + еще 6 дней - на сайты порядка 1-2 миллиона ссылочной массы). И вот, чтобы эти впустую 6 дней не проводить (все равно потом переделывать более точечно), и подумалось как бы можно было этот остаток урлов из очереди раздобыть.

Антоний Казанский #:

Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.

Если найдете способ - расскажите :)

Во временных файлах базы, я думаю, при желании, можно это все отловить, но, конечно. ковырять не хочется, раз не предусмотрено опционально.

Средняя скорость, кстати, так и не упала ниже 3 стр/сек, пока (уже больше 1 млн страниц прошло, 2/3 обработки).

Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.

Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.
И далее, где то, регрессивно, на каждую треть, это и завершается за неделю примерно (если об объеме около 1 млн) по схеме: 1 - 2 - 4 дня на каждую треть.
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).

Еще такой вопрос возник.

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Отсюда вопрос.
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы), и ты понимаешь, что с учетом достаточности выполнения его на 90% (для получения только ссылочной массы), можно уже остановить. Но.
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Также интересно. Один раз программы упала, проработав сутки. Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

нашла ошибку. чертову точку надо ставить впереди ) - https://.*.aaa.xxx.com/*

спасибо большое.
не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.
Только адреса голых URL для последующего парсинга. В ситуации, когда у сайта нет открытого sitemap, а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.
три года не заходила, сейчас опробовала (даже баланс остался). вообще ничего не работает
а можно как то сориентировать по скорости работы парсера. для ситуаций без прокси, с прокси, поддерживается ли работа с мобильными прокси и пр. как то больше об этом. нужно ли настройки какие то подкручивать еще, для антибана, или все выставлено уже оптимально. пять парсеров проверила в работе сейчас - ни один не отработал задачу без ошибок.
12
Всего: 15