Новый SiteAnalyzer проверит контент сайта на уникальность

В новой версии программы SiteAnalyzer, предназначенной для сканирования и анализа содержимого сайта, реализовано  несколько из наиболее востребованных пользователями функций, таких, как: проверка уникальности контента, скрейпинг данных (извлечение данных с сайта) и проверка скорости загрузки страниц по Google PageSpeed. 

Принцип работы инструмента проверки уникальности контента прост: по списку URL сайта программа скачивает их содержимое, получает текстовое содержимое страницы (без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.


Таким образом, при помощи шинглов определяется уникальность страниц и появляется возможность вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого. 

Программа работает с длиной шингла равной 5.

Веб-скрейпинг – это автоматизированный процесс извлечения данных с интересующих страниц сайта по определенным правилам. Основными способами веб-скрейпинга являются методы разбора данных используя XPath, CSS-селекторы, XQuery, RegExp и HTML templates.

Обычно при помощи скрейпинга решаются задачи, с которыми сложно справиться вручную. Это может быть извлечение описаний товаров для создании нового интернет-магазина, скрейпинг в маркетинговых исследованиях для мониторинга цен, либо для мониторинга объявлений.

Проверка скорости загрузки страниц по Google PageSpeed позволяет проверять скорость загрузки тех или иных элементов страниц, а также показывает общий бал скорости загрузки интересующих URL для десктопной и мобильной версии браузера.

Кроме этих трех нововведений в новой версии программы было  закрыто множество багов и проведен рестайлинг логотипа. 

В частности, в SiteAnalyzer 2.5:

  • добавлена возможность группировки проектов по папкам
  • добавлена фильтрация списка проектов по названию
  • исправлен некорректный учет исключений URL
  • исправлен некорректный учет глубины сканирования сайта
  • восстановлено отображение редиректов для URL, импортированных из файла
  • восстановлена возможность перестановки и запоминания порядка столбцов на вкладках
  • восстановлен учет неканонических страниц, решена проблема с пустыми мета-тегами
  • восстановлено отображение анкоров ссылок на вкладке Инфо
  • ускорен импорт большого количества URL из буфера обмена
  • восстановлено отображение alt и title у изображений
  • оптимизирована работа программы с кириллическими доменами
  • обновлен интерфейс настроек программы

Напомним, в последней версии SiteAnalyzer, которая вышла в ноябре 2020 года,  появились экспорт и фильтрация данных на вкладках Custom Search и Custom Filters.

subscribe

Подпишитесь на рассылку SearchEngines

— Статьи мировых экспертов

— Аналитические обзоры

— Важные новости

— Горячие темы с нашего форума

preview Google описал основные причины падения поискового трафика

Google описал основные причины падения поискового трафика

И посоветовал, что делать в каждом случае
preview Google добавил новый фильтр в отчет об эффективности в Search Console

Google добавил новый фильтр в отчет об эффективности в Search Console

Для математических сервисов
preview Google больше не показывает иконку AMP в результатах поиска

Google больше не показывает иконку AMP в результатах поиска

Это часть обновления Page Experience
preview Google обновил свои правила в отношении контента объявлений о вакансиях

Google обновил свои правила в отношении контента объявлений о вакансиях

И добавил новое свойство для их разметки