Сейчас расскажу )
Мне нужна, как раз, структура всего сайта (чтобы потом фильтры корректно и определить, на капитальный выборочный проход), которая, уже и бывает полностью определяема, при прохождении его большей части (90%). При этом, обработка ссылок, на этом этапе, может быть завершена только на 60% (но эта самая быстрая, по времени, часть), и в памяти готовых уже есть добавочные 30%, плюс в очереди, около 10% еще, судя по угасанию процесса, примерно будут зацеплены. Вот только, завершение остаточной этой части, может занять в 2-3 раза больше времени, чем прохождение первых 60% (допустим, 3 дня + еще 6 дней - на сайты порядка 1-2 миллиона ссылочной массы). И вот, чтобы эти впустую 6 дней не проводить (все равно потом переделывать более точечно), и подумалось как бы можно было этот остаток урлов из очереди раздобыть.
Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.
Если найдете способ - расскажите :)
Во временных файлах базы, я думаю, при желании, можно это все отловить, но, конечно. ковырять не хочется, раз не предусмотрено опционально.
Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.
Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток. Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость. И далее, где то, регрессивно, на каждую треть, это и завершается за неделю примерно (если об объеме около 1 млн) по схеме: 1 - 2 - 4 дня на каждую треть. Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).
Еще такой вопрос возник.
Вижу, что программа имеет два вида данных, в процессе работы.
1. Непосредственно уже полученные (распарсенные).2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)
Отсюда вопрос. Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы), и ты понимаешь, что с учетом достаточности выполнения его на 90% (для получения только ссылочной массы), можно уже остановить. Но.Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?
Также интересно. Один раз программы упала, проработав сутки. Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.
спасибо большое. не могу понять одну загадку с фильтрацией исключений (exclude)