Спасрить сайт более 1 000 000 страниц с помощью Screaming Frog SEO Spider

Lucky man
На сайте с 04.03.2013
Offline
86
5487

Доброго времени суток!

Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.

Проблема в том, что не хватает оперативки для такого объема данных.

Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.

Вопросы:

1. Как можно решить эту проблему без покупки дополнительной оперативки?

2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?

Буду весьма благодарен за ваши советы!

[Удален]
#1
Lucky man:
Доброго времени суток!

Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.

Проблема в том, что не хватает оперативки для такого объема данных.

Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.
Вопросы:
1. Как можно решить эту проблему без покупки дополнительной оперативки?
2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?
Буду весьма благодарен за ваши советы!

teleport pro если под win

SamCram
На сайте с 16.08.2006
Offline
163
#2

1) можно увеличить кол-во памяти выделяемое на задачу. По умолчанию резервируется 512 Мб. Читаем тут, пункт Memory.

2) можно воспользоваться онлайн краулерами и выполнить задачу в облаке. Вбиваем в Google "online crawler service" и выбираем :)

3) Купить a-parser или Content Downloader. Решал похожие задачи с помощью каждого инструмента.

4) Отдать задачу на фриланс тем, у кого есть апарсер. Например видел топик в разделе "Прочие услуги".

teleport pro если под win

Не уверен, что эта программа решит потребности ТС - скорее всего ему просто нужны мета-данные с каждой страницы.

LEOnidUKG
На сайте с 25.11.2006
Offline
1723
#3

wget под винду?

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/
yanus
На сайте с 21.01.2009
Offline
348
#4

Lucky man, а для чего и что конкретно вы хотите спарсить?

Lucky man
На сайте с 04.03.2013
Offline
86
#5
yanus:
Lucky man, а для чего и что конкретно вы хотите спарсить?

Цель парсинга: аудит. Выявление дублей мета-тегов, пустых мета-тегов, страниц с 404 ответами ну и все что позволяет увидеть Screaming Frog SEO Spider.

СЖ
На сайте с 25.11.2009
Offline
89
#6
Lucky man:
Цель парсинга: аудит. Выявление дублей мета-тегов, пустых мета-тегов, страниц с 404 ответами ну и все что позволяет увидеть Screaming Frog SEO Spider.

/ru/forum/965552 возможности Screaming Frog SEO Spider + рассчет внутреннего веса страниц, поиск полных и частичных дублей и проверка орфографии. Проверено на сайтах с несколькими миллионами страниц

ЛК
На сайте с 19.06.2017
Offline
0
#7

хз, можешь попробовать нетпик Spider - там можно настраивать объём потоков и их количество. Я всегда так делаю, когда дохрена сканить.

Danil2012
На сайте с 01.06.2012
Offline
74
#8
Lucky man :

Доброго времени суток!

Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.

Проблема в том, что не хватает оперативки для такого объема данных.

Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.

Вопросы:

1. Как можно решить эту проблему без покупки дополнительной оперативки?

2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?

Буду весьма благодарен за ваши советы!

Для больших объёмов можно увеличить выделенную память:

Configuration - System - Memory Allocation

Для миллиона+ страниц лучше переключиться в режим базы данных:

Configuration - System - Storage Mode - изменить Memory Storage на Database Storage

chaser
На сайте с 03.08.2005
Offline
198
#9
Lucky man :

2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?

Попробуйте SiteAnalyzer - это аналогичная программа для аудита сайта,  распространяется бесплатно

SiteAnalyzer ( https://site-analyzer.ru/ ) - Бесплатный аналог Screaming Frog | Форум поддержки ( https://forum.site-analyzer.ru/ ) / Telegram ( https://t.me/siteanalyzer ) | Majento ( https://majento.ru/index.php?page=seo-analize ) - 70+ бесплатных сервисов SEO-аналитики
L
На сайте с 10.02.2015
Offline
221
#10
chaser #:

Попробуйте SiteAnalyzer - это аналогичная программа для аудита сайта,  распространяется бесплатно

В роботсе стоит 

Disallow: /?page

При этом под запрет попадают ссылки не только с морды

Версия 2.4.1.240

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий