SiteAnalyzer - бесплатная программа для аудита и анализа сайта

chaser
На сайте с 03.08.2005
Offline
230
#341
Serg_CS:
Все там правильно прописано, просто у вас софт это еще не обрабатывает корректно 🍻

HINTS:

1) href из тега <base> перед применением нужно преобразовать в полный урл, используя в качестве базы урл текущей страницы. На сайте из примера выше этот урл относительный, и это вполне допустимо, не является ошибкой на сайте.

2) Относительные урлы в href, начинающиеся с /, должны в принципе игнорировать base href. Т.е. их надо резолвить относительно корня домена. На сайте из примера таких урлов полно, анализатор должен был их увидеть.

3) Еще надо корректно обрабатывать "." и ".." в href, и понимать, что они работают с директориями, т.е. ссылка вида <a href=".">...</a> на странице http://example.com/foo/bar должна вести на http://example.com/foo/ (обязательно со слэшом в конце) а не на http://example.com/foo/bar

Пожалуй, есть такое, что правила излишне строги.

К новой версии постараемся это подкорректировать.

SiteAnalyzer (https://site-analyzer.ru/) - Бесплатный аналог Screaming Frog и Нетпик Majento (https://majento.ru/index.php?page=seo-analize) - набор бесплатных сервисов SEO-аналитики Мой Facebook (https://www.facebook.com/chaser81) / Telegram (https://t.me/siteanalyzer)
chaser
На сайте с 03.08.2005
Offline
230
#342

Новая версия SiteAnalyzer 1.9.1

Что нового:

  • ускорен расчет PageRank (теперь даже для сотен тысяч страниц расчет PageRank стал занимать считанные секунды)
  • при расчете PageRank добавлен учет передачи веса по 301 редиректам
  • исправлен баг с некорректным учетом правил "robots.txt"
  • исправлен баг, при котором в базу попадали файлы типа CSS и JS, если их сканирование было отключено в настройках программы
  • исправлен баг, при котором в исходящих ссылках страницы оставалась исходящая ссылка от предыдущей обработанной страницы
  • исправлен баг, при котором в настройках программы не сохранялось дефолтное число итераций расчета PageRank
  • оптимизирована статистика отображения дублей заголовков H1-H6 в разделе "Статистика SEO"
  • упразднена остановка сканирования при проверке тега BASE HREF, в случае, если они были указаны не корректно
  • теперь, при остановке сканера из-за нехватки оперативной памяти скан ставится на паузу, а не останавливается
  • устранены ошибки типа Access violation, периодически возникающие при закрытии программы
  • ускорена запись данных в базу при остановке сканирования
  • ускорено удаление проектов из базы данных
  • улучшено отображение цепочек CANONICAL

Для корректной работы программы и расчета PageRank необходимо пересканировать все проекты.

Подробное описание версии: SiteAnalyzer 1.9.1

Lazy Badger
На сайте с 14.06.2017
Offline
180
#343

1. Не сохраняется (единственное) условие в "Расширенной фильтрации" при переключении между табами

2. Нет возможности (а хотелось бы) сканировать только subtree ("от урла и ниже по структуре") сайта. Я понимаю, что от сквозных ссылок никуда не уйти, но в режиме "неполное сканирование" можно просто игнорировать все, что за пределами дерева сразу, а не краулить на все деньги.

Моя ситуация сейчас: сайтец на 100000+ страниц, меня интересует только 470+ из них. Но уже 40 с лишним часов медленно и неспешно обходится весь сайт и SEO-статистика идет общая, и фильтры с ошибками - тоже накладываются на весь объем. Приходится делать быстрый фильтр и считать все глазами и руками

Производство жести методом непрерывного отжига
D
На сайте с 02.11.2013
Offline
81
#344

На 1.9.1 снова сканируются изображения, несмотря на то, что в настройках включен только HTML 😒

L8
На сайте с 04.10.2018
Offline
14
#345

Кажется после обновления программа при сканировании значительно упала производительность ПК. Даже если выставить кол-во потоков 1.

Еще вопрос: на какие данные влияет выбор User Agent в настройках?

A
На сайте с 14.06.2018
Offline
12
#346

Уважаемые разработчики,

подскажите пожалуйста, как настроить программу для сканирования вот этого ресурса: https://www.forumhouse.ru

а то результат вообще никакой, вместо миллиона с лишнем ссылок выдает только 12:

SC
На сайте с 11.02.2013
Offline
57
#347
agrokomooo:
Уважаемые разработчики,
подскажите пожалуйста, как настроить программу для сканирования вот этого ресурса: https://www.forumhouse.ru
а то результат вообще никакой, вместо миллиона с лишнем ссылок выдает только 12:

На этом сайте контент динамически подгружается яваскриптом, а не отдается сразу в ответе HTML от сервера. Поэтому возможные варианты у вас такие:

1. Переписать сайт, чтобы всё отдавалось сразу в HTML. Честно говоря, смысл в динамической подгрузке на главной странице этого сайта напрочь отсутствует, все необходимые данные сразу отдаются в коде в виде значения window.initData. Разве что это может защищать от воровства контента совсем примитивными ботами, не умеющими в JS;

2. Реализуйте server-side rendering - скрипты будут выполняться на вашем сервере, а браузеру будет отдаваться полная HTML-версия. Этот вариант наиболее правильный, если у вас полностью ajax'овый сайт, но также наиболее сложный в реализации и более требователен к производительности на вашего сервера;

3. Реализуйте альтернативные HTML-версии вот по этим правилам: https://yandex.ru/support/webmaster/robot-workings/ajax-indexing.html Гугл их считает устаревшими, но продвинутые анализаторы должны их поддерживать;

4. Или используйте софт/сервисы, которые умеют исполнять javascript на страницах (например, screaming frog). И это единственный возможный вариант, если анализируете структуру неподконтрольного вам ajax-сайта.

UPD посмотрел, там еще и бесконечный скроллинг, вряд ли готовым софтом такое отсканируете, проще заказать скрипт на python.

artur2k
На сайте с 16.06.2019
Offline
7
#348

А есть возможность добавить регулярные выражения в фильтры?

И хорошо бы сделать возможность построения структуры с выводом её не только по url, но и по title.

L8
На сайте с 04.10.2018
Offline
14
#349

Теперь программа вместе с основным доменом сканирует и поддомены. Это так задумано? Потому что у меня к примеру больше 20 поддоменов и они перелинковываются с основным доменом, и все это в куче ну очень не удобно.

Advertiser_
На сайте с 17.08.2018
Offline
8
#350

Отличная программа, достойный софт. Разработчикам большое спасибо!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий