Screaming Frog - настройки для быстрого сбора URL

12
A
На сайте с 17.06.2017
Offline
48
#11
Антоний Казанский #:

Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.

Если найдете способ - расскажите :)

Во временных файлах базы, я думаю, при желании, можно это все отловить, но, конечно. ковырять не хочется, раз не предусмотрено опционально.

Антоний Казанский
На сайте с 12.04.2007
Online
622
#12
annaov #:
Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.

Думаю, что вряд ли есть массовая тенденция парсить 1 мнл. сайты.

Дело это скорее неблагодарное, чем полезное.

Если уж и решать какие-то задачи по таким сайтом, то разделяя их на составляющие.


annaov #:
Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.

Конечно, потому что объём анализируемых ссылок накапливается и сравнивать текущие ссылки становится медленнее, чем следовать по новым.


annaov #:
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).

Тут уже интересно спросить - и что вы хотите выяснить про результат этого парсинга?

Какие именно данные вам нужны в общем объёме? Что полезного это вам даст и какую руководствующую мысль вы вынесете из этой части работы для последующего внедрения?

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Антоний Казанский
На сайте с 12.04.2007
Online
622
#13
annaov #:
Во временных файлах базы, я думаю, при желании, можно это все отловить, но, конечно. ковырять не хочется, раз не предусмотрено опционально.

Не предусмотрено, хотя практически конечно можно залезать во временные файлы и отсматривать, что там накапливается. Но что это вам даст? В моменте вы все равно не увидите результирующий объём ссылок на переобход, вы будете видеть на n% больше, чем уже обработанное.

Условно, вы обработали 200K ссылок, программа нашла 317K, а впереди ещё неизвестно сколько. Это может быть и 1M и 1.5M и 2M.

Что принципиально вам даст эта разница? Что вы вообще хотите от заявленного процесса?

A
На сайте с 17.06.2017
Offline
48
#14

Сейчас расскажу )

Мне нужна, как раз, структура всего сайта (чтобы потом фильтры корректно и определить, на капитальный выборочный проход), которая, уже и бывает полностью определяема, при прохождении его большей части (90%). При этом, обработка ссылок, на этом этапе, может быть завершена только на 60% (но эта самая быстрая, по времени, часть), и в памяти готовых уже есть добавочные 30%, плюс в очереди, около 10% еще, судя по угасанию процесса, примерно будут зацеплены.
Вот только, завершение остаточной этой части, может занять в 2-3 раза больше времени, чем прохождение первых 60% (допустим, 3 дня + еще 6 дней - на сайты порядка 1-2 миллиона ссылочной массы). И вот, чтобы эти впустую 6 дней не проводить (все равно потом переделывать более точечно), и подумалось как бы можно было этот остаток урлов из очереди раздобыть.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий