- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.
Если найдете способ - расскажите :)
Во временных файлах базы, я думаю, при желании, можно это все отловить, но, конечно. ковырять не хочется, раз не предусмотрено опционально.
Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.
Думаю, что вряд ли есть массовая тенденция парсить 1 мнл. сайты.
Дело это скорее неблагодарное, чем полезное.
Если уж и решать какие-то задачи по таким сайтом, то разделяя их на составляющие.
Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.
Конечно, потому что объём анализируемых ссылок накапливается и сравнивать текущие ссылки становится медленнее, чем следовать по новым.
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).
Тут уже интересно спросить - и что вы хотите выяснить про результат этого парсинга?
Какие именно данные вам нужны в общем объёме? Что полезного это вам даст и какую руководствующую мысль вы вынесете из этой части работы для последующего внедрения?
Во временных файлах базы, я думаю, при желании, можно это все отловить, но, конечно. ковырять не хочется, раз не предусмотрено опционально.
Не предусмотрено, хотя практически конечно можно залезать во временные файлы и отсматривать, что там накапливается. Но что это вам даст? В моменте вы все равно не увидите результирующий объём ссылок на переобход, вы будете видеть на n% больше, чем уже обработанное.
Условно, вы обработали 200K ссылок, программа нашла 317K, а впереди ещё неизвестно сколько. Это может быть и 1M и 1.5M и 2M.
Что принципиально вам даст эта разница? Что вы вообще хотите от заявленного процесса?
Сейчас расскажу )
Мне нужна, как раз, структура всего сайта (чтобы потом фильтры корректно и определить, на капитальный выборочный проход), которая, уже и бывает полностью определяема, при прохождении его большей части (90%). При этом, обработка ссылок, на этом этапе, может быть завершена только на 60% (но эта самая быстрая, по времени, часть), и в памяти готовых уже есть добавочные 30%, плюс в очереди, около 10% еще, судя по угасанию процесса, примерно будут зацеплены.
Вот только, завершение остаточной этой части, может занять в 2-3 раза больше времени, чем прохождение первых 60% (допустим, 3 дня + еще 6 дней - на сайты порядка 1-2 миллиона ссылочной массы). И вот, чтобы эти впустую 6 дней не проводить (все равно потом переделывать более точечно), и подумалось как бы можно было этот остаток урлов из очереди раздобыть.