Screaming Frog - настройки для быстрого сбора URL - Сервисы и программы для работы с SE - Практические вопросы оптимизации

54

annaov

25 октября 2023, 16:35

4157

Ребят, подскажите, кто хорошо разбирается.
Мне нужны только адреса страниц сайта. Никакой аналитики не требуется.
Что убрать из настроек, а что оставить, чтобы проход был максимально быстрый, но и безопасный от блокировок, для такой узкой задачи? Спасибо!

732

Антоний Казанский

25 октября 2023, 18:37

#1

annaov :
Мне нужны только адреса страниц сайта

Нужно только адреса страница сайта - что? Собрать/получить или по готовому списку проанализировать?

Сформулируйте более полно свою рабочую задачу.

Если получить информацию по отдельным адресам, то переключаетесь в режим анализа списка ссылок,

выбираете ручной ввод,

вставляете в рабочее окно перечень нужным вам URL адресов,

нажимаете кнопку "Next" - начнётся процесс сбора данных по указанным вами адресам.

Если просто список URL адресов сайта нужен, то загляните в XML карту сайта, можно взять оттуда.

1

√ SEO продвижение ► https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Разговоры о SEO и не только: культурно, вежливо, доброжелательно ► https://t.me/seotusovochka

CS Yazzle - программа Софт для определения проиндексированных Посоветуйте простой парсер url-ов

A

54

annaov

25 октября 2023, 20:16

#2

Только адреса голых URL для последующего парсинга. В ситуации, когда у сайта нет открытого sitemap, а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.

Проблема с google sitemap Индексирования и ранжирования материала Включение ЧПУ.

732

Антоний Казанский

25 октября 2023, 20:30

#3

annaov #:
Только адреса голых URL для последующего парсинга

annaov #:
когда у сайта нет открытого sitemap

annaov #:
а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.

Ага, понятно, вот это уже ясно сформулированная задача.

Тогда. Если нет карты сайты, то перечень рабочих URL адресов мы можете получить только в процессе краулинга (т.е. фактического обхода по сайту через внутренние ссылки).

1. В настройках отключаете переобход картинок, js/css файлов.

2. В настройках извлечения (Extraction) отключаете всё, кроме title заголовков.

3. В настройках robots ставите ignore robots.txt (игнорирование инструкций robots)

4. В настройках скорости лучше поставить Max Threads - 3

5. В настройках User-Agent - GoogleBot

И вперед.

По результату анализируете URL-ы.

1

RiveSolutions SEO Spider Как полностью удалить сайт сегодне склеился сайт :(

A

54

annaov

25 октября 2023, 23:15

#4

спасибо большое.
не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.

1

Редирект субдоменов любого уровня Etxt Антиплагиат 2.0. Проверка установка wordpress на sky-host.com.ua

732

Антоний Казанский

25 октября 2023, 23:44

#5

annaov #:
спасибо большое.

Пожалуйста 😉

annaov #:

не могу понять одну загадку с фильтрацией исключений (exclude)

почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.

Не видя всех ваших настроек сложно сказать, но попробуйте обратиться к настройкам Crawl All Subdomain и уберите там галку, если она там стоит (по умолчанию обычно стоит) - пробуйте работать без краулинга по поддоменам.

Как передавать файлы роутер Прверка уникальности- бесплатная прога. LI vs Google Analitics

A

54

annaov

25 октября 2023, 23:58

#6

нашла ошибку. чертову точку надо ставить впереди ) - https://.*.aaa.xxx.com/*

A

54

annaov

30 октября 2023, 06:43

#7

Еще такой вопрос возник.

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Отсюда вопрос.
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы), и ты понимаешь, что с учетом достаточности выполнения его на 90% (для получения только ссылочной массы), можно уже остановить. Но.
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Также интересно. Один раз программы упала, проработав сутки. Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

Программа для автоматизации ответов Настырный рекламодатель "халявщик" Директ: вопросы к Яндексу

732

Антоний Казанский

30 октября 2023, 07:33

#8

annaov #:

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Вряд ли стоит разделять, тут просто надо понимать, что сначала краулер находит определённый объём ссылок, потом распаршивает их, обрабатывает доп. линки, сравнивает их с уже имеющимися, добавляет новые и закидывает их в очередь.

Поэтому в очереди вы видите одну цифру, а в обработанном перечне уже результат обработки.

annaov #:
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы)

За миллионы? Тогда здесь конечно нужны хорошие мощности.

annaov #:
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.

Если найдете способ - расскажите :)

annaov #:
Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

По времени такой возможности нет.

На мой взгляд, можно примерно определить в какой период (т.е. на каком объеме она падает) и потом вручную на рабочих интервалах делать паузы, сохранения и возобновлять с точки остановки.

Скорее всего программа падает, потому что исчерпывает рабочую память или отведённое ей пространство, поэтому я и сказал, что здесь нужны хорошие мощности. Парсить миллионники - задача конечно не простая.

1

Яндекс: индексация, вылет, индексация Парсим Яндекс без проблем Какую статистику предоставляют ПФ

A

54

annaov

31 октября 2023, 09:09

#9

Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.

Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.
И далее, где то, регрессивно, на каждую треть, это и завершается за неделю примерно (если об объеме около 1 млн) по схеме: 1 - 2 - 4 дня на каждую треть.
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).

[Обсуждение] Фильтр за переспам Получил предупреждение в WMT Как работает SEOшник (вопрос

A

54

annaov

31 октября 2023, 09:11

#10

Средняя скорость, кстати, так и не упала ниже 3 стр/сек, пока (уже больше 1 млн страниц прошло, 2/3 обработки).

Google: E-E-A-T не является фактором ранжирования

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Screaming Frog - настройки для быстрого сбора URL