Screaming Frog - настройки для быстрого сбора URL

12
A
На сайте с 17.06.2017
Offline
48
4032
Ребят, подскажите, кто хорошо разбирается.
Мне нужны только адреса страниц сайта. Никакой аналитики не требуется.
Что убрать из настроек, а что оставить, чтобы проход был максимально быстрый, но и безопасный от блокировок, для такой узкой задачи? Спасибо!
Антоний Казанский
На сайте с 12.04.2007
Offline
631
#1
annaov :
Мне нужны только адреса страниц сайта

Нужно только адреса страница сайта - что? Собрать/получить или по готовому списку проанализировать?

Сформулируйте более полно свою рабочую задачу.

Если получить информацию по отдельным адресам, то переключаетесь в режим анализа списка ссылок,

выбираете ручной ввод,

вставляете в рабочее окно перечень нужным вам URL адресов,


нажимаете кнопку "Next" - начнётся процесс сбора данных по указанным вами адресам.

Если просто список URL адресов сайта нужен, то загляните в XML карту сайта, можно взять оттуда.

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
A
На сайте с 17.06.2017
Offline
48
#2
Только адреса голых URL для последующего парсинга. В ситуации, когда у сайта нет открытого sitemap, а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.
Антоний Казанский
На сайте с 12.04.2007
Offline
631
#3
annaov #:
Только адреса голых URL для последующего парсинга
annaov #:
когда у сайта нет открытого sitemap
annaov #:
а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.

Ага, понятно, вот это уже ясно сформулированная задача.

Тогда. Если нет карты сайты, то перечень рабочих URL адресов мы можете получить только в процессе краулинга (т.е. фактического обхода по сайту через внутренние ссылки).

1. В настройках отключаете переобход картинок, js/css файлов.

2. В настройках извлечения (Extraction) отключаете всё, кроме title заголовков.

3. В настройках robots ставите ignore robots.txt (игнорирование инструкций robots)

4. В настройках скорости лучше поставить Max Threads - 3

5. В настройках User-Agent - GoogleBot

И вперед. 

По результату анализируете URL-ы.

A
На сайте с 17.06.2017
Offline
48
#4

спасибо большое.
не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.
Антоний Казанский
На сайте с 12.04.2007
Offline
631
#5
annaov #:
спасибо большое.

Пожалуйста 😉


annaov #:

не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.

Не видя всех ваших настроек сложно сказать, но попробуйте обратиться к настройкам Crawl All Subdomain и уберите там галку, если она там стоит (по умолчанию обычно стоит) - пробуйте работать без краулинга по поддоменам.

A
На сайте с 17.06.2017
Offline
48
#6
нашла ошибку. чертову точку надо ставить впереди ) - https://.*.aaa.xxx.com/*
A
На сайте с 17.06.2017
Offline
48
#7

Еще такой вопрос возник.

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Отсюда вопрос.
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы), и ты понимаешь, что с учетом достаточности выполнения его на 90% (для получения только ссылочной массы), можно уже остановить. Но.
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Также интересно. Один раз программы упала, проработав сутки. Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

Антоний Казанский
На сайте с 12.04.2007
Offline
631
#8
annaov #:

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Вряд ли стоит разделять, тут просто надо понимать, что сначала краулер находит определённый объём ссылок, потом распаршивает их, обрабатывает доп. линки, сравнивает их с уже имеющимися, добавляет новые и закидывает их в очередь.

Поэтому в очереди вы видите одну цифру, а в обработанном перечне уже результат обработки.


annaov #:
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы)

За миллионы? Тогда здесь конечно нужны хорошие мощности.


annaov #:
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.

Если найдете способ - расскажите :)


annaov #:
Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

По времени такой возможности нет.

На мой взгляд, можно примерно определить в какой период (т.е. на каком объеме она падает) и потом вручную на рабочих интервалах делать паузы, сохранения и возобновлять с точки остановки.

Скорее всего программа падает, потому что исчерпывает рабочую память или отведённое ей пространство, поэтому я и сказал, что здесь нужны хорошие мощности. Парсить миллионники - задача конечно не простая.

A
На сайте с 17.06.2017
Offline
48
#9

Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.

Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.
И далее, где то, регрессивно, на каждую треть, это и завершается за неделю примерно (если об объеме около 1 млн) по схеме: 1 - 2 - 4 дня на каждую треть.
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).

A
На сайте с 17.06.2017
Offline
48
#10
Средняя скорость, кстати, так и не упала ниже 3 стр/сек, пока (уже больше 1 млн страниц прошло, 2/3 обработки).
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий