Спасрить сайт более 1 000 000 страниц с помощью Screaming Frog SEO Spider

Lucky man
На сайте с 04.03.2013
Offline
74
4925

Доброго времени суток!

Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.

Проблема в том, что не хватает оперативки для такого объема данных.

Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.

Вопросы:

1. Как можно решить эту проблему без покупки дополнительной оперативки?

2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?

Буду весьма благодарен за ваши советы!

[Удален]
#1
Lucky man:
Доброго времени суток!

Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.

Проблема в том, что не хватает оперативки для такого объема данных.

Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.
Вопросы:
1. Как можно решить эту проблему без покупки дополнительной оперативки?
2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?
Буду весьма благодарен за ваши советы!

teleport pro если под win

SamCram
На сайте с 16.08.2006
Offline
144
#2

1) можно увеличить кол-во памяти выделяемое на задачу. По умолчанию резервируется 512 Мб. Читаем тут, пункт Memory.

2) можно воспользоваться онлайн краулерами и выполнить задачу в облаке. Вбиваем в Google "online crawler service" и выбираем :)

3) Купить a-parser или Content Downloader. Решал похожие задачи с помощью каждого инструмента.

4) Отдать задачу на фриланс тем, у кого есть апарсер. Например видел топик в разделе "Прочие услуги".

teleport pro если под win

Не уверен, что эта программа решит потребности ТС - скорее всего ему просто нужны мета-данные с каждой страницы.

LEOnidUKG
На сайте с 25.11.2006
Offline
1590
#3

wget под винду?

✅ Трастовых площадок под размещение статей и ссылок. Опыт 12 лет! ( https://searchengines.guru/ru/forum/675690 ) ⭐ Купить вечные трастовые ссылки для сайта ( https://getmanylinks.ru/?srh ) ⭐ Ускорение ваших сайтов (WP, Opencart и др.) + Настройка сервера ( https://searchengines.guru/ru/forum/997205 )
yanus
На сайте с 21.01.2009
Offline
344
#4

Lucky man, а для чего и что конкретно вы хотите спарсить?

Lucky man
На сайте с 04.03.2013
Offline
74
#5
yanus:
Lucky man, а для чего и что конкретно вы хотите спарсить?

Цель парсинга: аудит. Выявление дублей мета-тегов, пустых мета-тегов, страниц с 404 ответами ну и все что позволяет увидеть Screaming Frog SEO Spider.

СЖ
На сайте с 25.11.2009
Offline
89
#6
Lucky man:
Цель парсинга: аудит. Выявление дублей мета-тегов, пустых мета-тегов, страниц с 404 ответами ну и все что позволяет увидеть Screaming Frog SEO Spider.

/ru/forum/965552 возможности Screaming Frog SEO Spider + рассчет внутреннего веса страниц, поиск полных и частичных дублей и проверка орфографии. Проверено на сайтах с несколькими миллионами страниц

ЛК
На сайте с 19.06.2017
Offline
0
#7

хз, можешь попробовать нетпик Spider - там можно настраивать объём потоков и их количество. Я всегда так делаю, когда дохрена сканить.

Danil2012
На сайте с 01.06.2012
Offline
74
#8
Lucky man :

Доброго времени суток!

Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.

Проблема в том, что не хватает оперативки для такого объема данных.

Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.

Вопросы:

1. Как можно решить эту проблему без покупки дополнительной оперативки?

2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?

Буду весьма благодарен за ваши советы!

Для больших объёмов можно увеличить выделенную память:

Configuration - System - Memory Allocation

Для миллиона+ страниц лучше переключиться в режим базы данных:

Configuration - System - Storage Mode - изменить Memory Storage на Database Storage

chaser
На сайте с 03.08.2005
Offline
248
#9
Lucky man :

2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?

Попробуйте SiteAnalyzer - это аналогичная программа для аудита сайта,  распространяется бесплатно

SiteAnalyzer (https://site-analyzer.ru/) - Бесплатный аналог Screaming Frog и Нетпик Majento (https://majento.ru/index.php?page=seo-analize) - набор бесплатных сервисов SEO-аналитики Мой Facebook (https://www.facebook.com/chaser81) / Telegram (https://t.me/siteanalyzer)
L
На сайте с 10.02.2015
Offline
138
#10
chaser #:

Попробуйте SiteAnalyzer - это аналогичная программа для аудита сайта,  распространяется бесплатно

В роботсе стоит 

Disallow: /?page

При этом под запрет попадают ссылки не только с морды

Версия 2.4.1.240

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий