Screaming Frog - настройки для быстрого сбора URL - Сервисы и программы для работы с SE - Практические вопросы оптимизации

48

annaov

25 октября 2023, 16:35

4032

Ребят, подскажите, кто хорошо разбирается.
Мне нужны только адреса страниц сайта. Никакой аналитики не требуется.
Что убрать из настроек, а что оставить, чтобы проход был максимально быстрый, но и безопасный от блокировок, для такой узкой задачи? Спасибо!

631

Антоний Казанский

25 октября 2023, 18:37

#1

annaov :
Мне нужны только адреса страниц сайта

Нужно только адреса страница сайта - что? Собрать/получить или по готовому списку проанализировать?

Сформулируйте более полно свою рабочую задачу.

Если получить информацию по отдельным адресам, то переключаетесь в режим анализа списка ссылок,

выбираете ручной ввод,

вставляете в рабочее окно перечень нужным вам URL адресов,

нажимаете кнопку "Next" - начнётся процесс сбора данных по указанным вами адресам.

Если просто список URL адресов сайта нужен, то загляните в XML карту сайта, можно взять оттуда.

1

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu

A

48

annaov

25 октября 2023, 20:16

#2

Только адреса голых URL для последующего парсинга. В ситуации, когда у сайта нет открытого sitemap, а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.

631

Антоний Казанский

25 октября 2023, 20:30

#3

annaov #:
Только адреса голых URL для последующего парсинга

annaov #:
когда у сайта нет открытого sitemap

annaov #:
а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.

Ага, понятно, вот это уже ясно сформулированная задача.

Тогда. Если нет карты сайты, то перечень рабочих URL адресов мы можете получить только в процессе краулинга (т.е. фактического обхода по сайту через внутренние ссылки).

1. В настройках отключаете переобход картинок, js/css файлов.

2. В настройках извлечения (Extraction) отключаете всё, кроме title заголовков.

3. В настройках robots ставите ignore robots.txt (игнорирование инструкций robots)

4. В настройках скорости лучше поставить Max Threads - 3

5. В настройках User-Agent - GoogleBot

И вперед.

По результату анализируете URL-ы.

1

A

48

annaov

25 октября 2023, 23:15

#4

спасибо большое.
не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.

1

631

Антоний Казанский

25 октября 2023, 23:44

#5

annaov #:
спасибо большое.

Пожалуйста 😉

annaov #:

не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.

Не видя всех ваших настроек сложно сказать, но попробуйте обратиться к настройкам Crawl All Subdomain и уберите там галку, если она там стоит (по умолчанию обычно стоит) - пробуйте работать без краулинга по поддоменам.

Корректировка в директе по Хостинг (Antiddos) ищу ПФ боты ломятся на

A

48

annaov

25 октября 2023, 23:58

#6

нашла ошибку. чертову точку надо ставить впереди ) - https://.*.aaa.xxx.com/*

A

48

annaov

30 октября 2023, 06:43

#7

Еще такой вопрос возник.

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Отсюда вопрос.
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы), и ты понимаешь, что с учетом достаточности выполнения его на 90% (для получения только ссылочной массы), можно уже остановить. Но.
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Также интересно. Один раз программы упала, проработав сутки. Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

631

Антоний Казанский

30 октября 2023, 07:33

#8

annaov #:

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Вряд ли стоит разделять, тут просто надо понимать, что сначала краулер находит определённый объём ссылок, потом распаршивает их, обрабатывает доп. линки, сравнивает их с уже имеющимися, добавляет новые и закидывает их в очередь.

Поэтому в очереди вы видите одну цифру, а в обработанном перечне уже результат обработки.

annaov #:
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы)

За миллионы? Тогда здесь конечно нужны хорошие мощности.

annaov #:
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.

Если найдете способ - расскажите :)

annaov #:
Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

По времени такой возможности нет.

На мой взгляд, можно примерно определить в какой период (т.е. на каком объеме она падает) и потом вручную на рабочих интервалах делать паузы, сохранения и возобновлять с точки остановки.

Скорее всего программа падает, потому что исчерпывает рабочую память или отведённое ей пространство, поэтому я и сказал, что здесь нужны хорошие мощности. Парсить миллионники - задача конечно не простая.

1

A

48

annaov

31 октября 2023, 09:09

#9

Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.

Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.
И далее, где то, регрессивно, на каждую треть, это и завершается за неделю примерно (если об объеме около 1 млн) по схеме: 1 - 2 - 4 дня на каждую треть.
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).

A

48

annaov

31 октября 2023, 09:11

#10

Средняя скорость, кстати, так и не упала ниже 3 стр/сек, пока (уже больше 1 млн страниц прошло, 2/3 обработки).

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, чтобы попасть в ответы Google Bard

Screaming Frog - настройки для быстрого сбора URL