- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Доброго времени суток!
Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.
Проблема в том, что не хватает оперативки для такого объема данных.
Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.
Вопросы:
1. Как можно решить эту проблему без покупки дополнительной оперативки?
2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?
Буду весьма благодарен за ваши советы!
Доброго времени суток!
Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.
Проблема в том, что не хватает оперативки для такого объема данных.
Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.
Вопросы:
1. Как можно решить эту проблему без покупки дополнительной оперативки?
2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?
Буду весьма благодарен за ваши советы!
teleport pro если под win
1) можно увеличить кол-во памяти выделяемое на задачу. По умолчанию резервируется 512 Мб. Читаем тут, пункт Memory.
2) можно воспользоваться онлайн краулерами и выполнить задачу в облаке. Вбиваем в Google "online crawler service" и выбираем :)
3) Купить a-parser или Content Downloader. Решал похожие задачи с помощью каждого инструмента.
4) Отдать задачу на фриланс тем, у кого есть апарсер. Например видел топик в разделе "Прочие услуги".
Не уверен, что эта программа решит потребности ТС - скорее всего ему просто нужны мета-данные с каждой страницы.
wget под винду?
Lucky man, а для чего и что конкретно вы хотите спарсить?
Lucky man, а для чего и что конкретно вы хотите спарсить?
Цель парсинга: аудит. Выявление дублей мета-тегов, пустых мета-тегов, страниц с 404 ответами ну и все что позволяет увидеть Screaming Frog SEO Spider.
Цель парсинга: аудит. Выявление дублей мета-тегов, пустых мета-тегов, страниц с 404 ответами ну и все что позволяет увидеть Screaming Frog SEO Spider.
/ru/forum/965552 возможности Screaming Frog SEO Spider + рассчет внутреннего веса страниц, поиск полных и частичных дублей и проверка орфографии. Проверено на сайтах с несколькими миллионами страниц
хз, можешь попробовать нетпик Spider - там можно настраивать объём потоков и их количество. Я всегда так делаю, когда дохрена сканить.
Доброго времени суток!
Столкнулся с необходимостью спарсить сайт более 1 000 000 страниц программой Screaming Frog SEO Spider.
Проблема в том, что не хватает оперативки для такого объема данных.
Пробовал парсить частями: сперва карточки товаров, затем отдельно категории, но все равно слишком много страниц получается.
Вопросы:
1. Как можно решить эту проблему без покупки дополнительной оперативки?
2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?
Буду весьма благодарен за ваши советы!
Для больших объёмов можно увеличить выделенную память:
Configuration - System - Memory Allocation
Для миллиона+ страниц лучше переключиться в режим базы данных:
Configuration - System - Storage Mode - изменить Memory Storage на Database Storage
2. Возможно есть другой софт для парсинга, который не привязан так к объему оперативки?
Попробуйте SiteAnalyzer - это аналогичная программа для аудита сайта, распространяется бесплатно
Попробуйте SiteAnalyzer - это аналогичная программа для аудита сайта, распространяется бесплатно
В роботсе стоит
Disallow: /?page
При этом под запрет попадают ссылки не только с морды
Версия 2.4.1.240