- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Мне нужны только адреса страниц сайта. Никакой аналитики не требуется.
Что убрать из настроек, а что оставить, чтобы проход был максимально быстрый, но и безопасный от блокировок, для такой узкой задачи? Спасибо!
Мне нужны только адреса страниц сайта
Нужно только адреса страница сайта - что? Собрать/получить или по готовому списку проанализировать?
Сформулируйте более полно свою рабочую задачу.
Если получить информацию по отдельным адресам, то переключаетесь в режим анализа списка ссылок,
выбираете ручной ввод,
вставляете в рабочее окно перечень нужным вам URL адресов,
нажимаете кнопку "Next" - начнётся процесс сбора данных по указанным вами адресам.
Если просто список URL адресов сайта нужен, то загляните в XML карту сайта, можно взять оттуда.
Только адреса голых URL для последующего парсинга
когда у сайта нет открытого sitemap
а структура каталога полностью не раскрывается, страницы выдаются либо от поисковых запросов, либо от тегов, или обрезанной пагинации.
Ага, понятно, вот это уже ясно сформулированная задача.
Тогда. Если нет карты сайты, то перечень рабочих URL адресов мы можете получить только в процессе краулинга (т.е. фактического обхода по сайту через внутренние ссылки).
1. В настройках отключаете переобход картинок, js/css файлов.
2. В настройках извлечения (Extraction) отключаете всё, кроме title заголовков.
3. В настройках robots ставите ignore robots.txt (игнорирование инструкций robots)
4. В настройках скорости лучше поставить Max Threads - 3
5. В настройках User-Agent - GoogleBot
И вперед.
По результату анализируете URL-ы.
спасибо большое.
почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.не могу понять одну загадку с фильтрацией исключений (exclude)
спасибо большое.
Пожалуйста 😉
не могу понять одну загадку с фильтрацией исключений (exclude)
почему исключение вида - https://*.aaa.xxx.com/* позволяет грузиться страницам вида https://vrevervvreve.aaa.xxx.com/ то есть, разделам четвертого уровня. где ошибка? может быть, приоритетность проверки правила где то нарушена.. стоят галки проверять все субдомены и все от стартовой папки. но мне же такое и надо, кроме исключенных путей.Не видя всех ваших настроек сложно сказать, но попробуйте обратиться к настройкам Crawl All Subdomain и уберите там галку, если она там стоит (по умолчанию обычно стоит) - пробуйте работать без краулинга по поддоменам.
Еще такой вопрос возник.
Вижу, что программа имеет два вида данных, в процессе работы.
1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)
Отсюда вопрос.
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы), и ты понимаешь, что с учетом достаточности выполнения его на 90% (для получения только ссылочной массы), можно уже остановить. Но.
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?
Также интересно. Один раз программы упала, проработав сутки. Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.
Вижу, что программа имеет два вида данных, в процессе работы.
1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)
Вряд ли стоит разделять, тут просто надо понимать, что сначала краулер находит определённый объём ссылок, потом распаршивает их, обрабатывает доп. линки, сравнивает их с уже имеющимися, добавляет новые и закидывает их в очередь.
Поэтому в очереди вы видите одну цифру, а в обработанном перечне уже результат обработки.
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы)
За миллионы? Тогда здесь конечно нужны хорошие мощности.
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?
Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.
Если найдете способ - расскажите :)
Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.
По времени такой возможности нет.
На мой взгляд, можно примерно определить в какой период (т.е. на каком объеме она падает) и потом вручную на рабочих интервалах делать паузы, сохранения и возобновлять с точки остановки.
Скорее всего программа падает, потому что исчерпывает рабочую память или отведённое ей пространство, поэтому я и сказал, что здесь нужны хорошие мощности. Парсить миллионники - задача конечно не простая.
Интересно, у кого сколько выходит затрат, по времени, на своем ПК (обычном) при мягких настройках (3 потока), чтобы пройти примерно 1 млн ссылочной массы.
Сейчас обратила внимание, что до 30% (примерно), идет ее накопление с опережением обработки. Более суток.
Потом случается разворот, и переработка ссылок уже опережает их добавление, но падает скорость.
И далее, где то, регрессивно, на каждую треть, это и завершается за неделю примерно (если об объеме около 1 млн) по схеме: 1 - 2 - 4 дня на каждую треть.
Итого - ровно 1 неделя (обычный ноут, вин 10, интел 7 четыре ядра, 16Гб оперативки, выделено 6Гб лимита, дамп пишется сразу на жесткий). Память, кстати, работает с самоочищением (пляшет, на такой задаче, между 3Гб и 1Гб, к лимиту не подступая пока).