юни, ну и соответственно вот настройки создания карты сайта
По поводу функционала, еще хочу упомянуть наличие учета rel="canonical", если вы включаете эту опцию, то в дубликаты не будут попадать такие страницы, с идентичным контентом. Задается опция учета этого атрибута на странице Settings => Crawler Settings.
Ну и банально, некоторые сайты при слишком частых запросах блокируют Вас. Срабатывает DDOS защита.
На этот счет предусмотрена пауза между запросами. И имитирование человеческого поведения, за счет задания диапазона паузы. Например Вы задаете диапазон от 3 до 10 секунд, то пауза будет случайным образом выбираться из этого диапазона.
Да есть.
В программе все данные представлены в виде фильтров.
Есть страница Audit Info, на ней представлена таблица с фильтрами.
Каждый фильтр описывает определенную проблему на сайте.
Проблемы разные и важность их тоже.
Так есть три категории важности:
1. Info
2. Warning
3. Error
Перечислены по возрастанию важности.
Вот полный список фильтров:
1. Ссылки с символами в верхнем регистре (Links With Uppercase Characters)
2. Ссылки с non-ascii символами (Links With Non-Ascii Characters) - не в латинице.
3. Слишком длинные ссылки (Too Long Links) - длина ссылок, которые считаются длинными задается в настройках Settings => Limit Settings
4. Битые ссылки (Broken Links) - сюда попадают ссылки с ответом 404 от сервера
5. Status Code 4xx - соответственно сюда попадают все ссылки с кодом ответа 4хх
5. Status Code 5xx - аналогично предыдущему фильтру, только сюда попадают ссылки с кодом ответов 5хх, то есть проблемы сервера
6. Временная переадресация 302 (Moved Temporarily 302) - ссылки с 302 кодом.
7. Перманентные переадресации 301 (Moved Permanently 301)
8. Слишком большое количество ссылок на одной странице (Too Many Links On Page) - тоже значение задается из настроек Settings => Limit Settings
9. Страницы с содержанием meta refresh тегов (Pages Contain Meta Refresh Tag)
10. Страницы с фреймами (Page Contain Frames)
Фильтры проблем связанных с Titles
11. Пустые тайтлы или их отсутствие (Empty Titles) - страницы с пустыми значениями тега title или его отсутсвием
12. Дубликаты Title (Duplicated Titles) - поиск дублей тайтлов, сравнение идет посимвольное (пока что, в планах есть добавить сравнение методом Шинглов)
13. Слишком длинные значения тайтлов (Too Long Titles) - максимальная длина задается из настроек Settings => Preferences Settings
14. Слишком короткие тайтлы (Too Short Titles) - минимальная длина задается из настроек Settings => Preferences Settings
15. Тайтлы, дублирующие значение тега H1 (Titles Duplicates H1)
16. Несколько тегов title на одной странице (Several Title Tags On The Same Page)
Фильтры проблем связанных с Meta Descriptions
17. Пустые мета описания страниц (Empty Meta Descriptions)
18. Дубликаты мета описаний (Duplicated Meta Descriptions)
19. Слишком длинные мета описания (Too Long Meta Descriptions) - максимальная длина задается из настроек Settings => Preferences Settings
20. (Too Short Meta Descriptions) - минимальная длина задается из настроек Settings => Preferences Settings
21. Несколько тегов с мета описаниями на одной странице (Several Meta Descriptions)
Meta Keywords - в настоящий момент не очень важные критерии, но добавлены для справки
22. Пустые meta keywords (Empty Meta Keywords)
23. Дубликаты meta keywords (Duplicated Meta Keywords)
24. Несколько тегов meta keywords (Several Meta Keywords)
Заблокированные для индексирования страницы
25. Все страницы, закрытые от индексации поисковыми системами (All Not Indexed Pages)
26. Ссылки, закрытые от индексирования атрибутом rel="nofollow" (Nofollow Links) - страница попадает в этот фильтр, если все ссылки найденные на эту страницу имеют атрибут rel="nofollow"
27. Ссылки, закрытые от роботов (Blocked by robots.txt Pages) - следование конкретному роботу задается в настройках Crawler Settings.
Есть варианты на выбор:
1. GoogleBot
2. YandexBot
3. MailRuBot
4. YahooBot
28. Страницы закрытые с помощью метатега robots или HTTP-заголовка X-Robots-Tag (Blocked by x-robots-tag Pages) - https://developers.google.com/search/reference/robots_meta_tag?hl=ru
H1 tags
29. Страницы без тега H1 (Missing H1)
30. Страницы, дублирующие H1 тег на других страницах (Duplicated H1)
31. Слишком длинные значения тегов H1 (Too Long H1) - длина задается в настройках Settings => Preferences Settings
32. Несколько тегов H1 на одной странице (Several Equal H1 On Page)
H2 tags
33. Страницы без тега H2 (Missing H2)
34. Страницы, дублирующие H2 тег на других страницах (Duplicated H2)
35. Слишком длинные значения тегов H2 (Too Long H2) - длина задается в настройках Settings => Preferences Settings
36. Несколько тегов H2 на одной странице (Several Equal H2 On Page)
Images
37. Изображения превышающие 100кб (Images Over 100 KB)
38. Изображения без атрибута alt (Images With Missing Alt Description)
39. Слишком длинные значения атрибута alt изображений (Too Long Image Alt Description) - длина задается в настройках Settings => Preferences Settings
Имеется возможность экспорта отчета о всех технических проблемах сайта в виде pdf файла на странице Audit Report.
Имеется возможность экспорта всех ссылок выбранного фильтра в excel файл.
Это зачастую нужно, для составления ТЗ. Например Вам может понадобиться собрать все битые ссылки на сайте. Просто экспортируете фильтр и у Вас есть таблица ссылок.
Далее. Для каждой отдельно взятой ссылки Вы можете найти страницу, на которой она была найдена из контекстного меню. ПКМ по ссылке => Go to... => Go to links to this page.---------- Добавлено 13.06.2018 в 20:54 ----------Еще имеется возможность создания XML карты сайта. Для этого надо прокраулить сайт, а затем на меню баре выбрать Sitemap => Create XML Sitemap. Там будут перечислены опции по настройке создания карты сайта.
Еще есть страница All Resources - на которой представлены фильтры, которые разбивают сайт по ресурсам.
Например найти все CSS ресурсы на сайте, JS ресурсы, HTML ресурсы, как внешние, так и внутренние.---------- Добавлено 13.06.2018 в 20:56 ----------Есть возможность сохранения прогресса краулинга, чтобы остановить его в определенной точке, а затем продолжить анализ сайта с того же места завтра или через любое другое время.
Еще есть возможность кастомизирования user-agent'a в настройках.
---------- Добавлено 13.06.2018 в 21:09 ----------
А что конкретно вы делали, что привело к крашу?
Павел, да, это проблема связана с тем, что при установке берется Ваша текущая локаль, а она русская. Вот и устанавливается перевод на русский, который на половину сделан. Но акцент делается на английский язык. Пока что. Вы уже не первый, кто пишет об этом. Так что пора этим заняться.
Спасибо за отзыв.
Ну если ввод email так затрудняет, то можно скачать по прямым ссылкам:
x64 windows 7 и выше - http://rivesolutions.com/downloads/win/x64/dist/seospiderinstaller-offline.exe
x86 windows 7 и выше - http://rivesolutions.com/downloads/win/x86/dist/seospiderinstaller-offline.exe