AndrAscii

Рейтинг
15
Регистрация
22.05.2018
Интересы
Разработка IT продуктов
Разработчик С++ команды RiveSolutions
vold57:
Всю тему не читал. Тестерам дается бесплатный доступ к полному функционалу?

Ну конечно, достаточно просто скачать программу, она сейчас никак не лимитирована.

a1promoseo:
Сколько на рынке таких пауков? Дофига. Сделайте уникальный продукт. Мало собрать инфу, подумайте над тем, как упростить дальнейшую работу с этой информацией + другие фишки.
Просто для примера, пусть собирает ещё топ по семантике, делает общий сравнительный анализ сайтов и постраничный (частично в Алмате реализовано). Сделайте удобную выгрузку из постранично. И так далее

Совет полезный. Спорить с вами не буду.

Дело в том, что для того, чтобы люди пользовались этим софтом, нужно чтобы он удовлетворял все их потребности.

Но у каждого они разные. Поэтому нам и нужны люди, которые начнут активно использовать программу и оставлять фидбек, далее самые частые просьбы будут реализованы.

Видимо у меня слабо развит навык доносить информацию до людей.

Но мой основной посыл в том, чтобы люди присоединились к тестированию, опробовали программу в боевых условиях.

Так вы сами сможете регулировать дальнейшую разработку. Что толку от того, что мы дальше будем ее разрабатывать просто так, это все равно что в сферический конь в вакууме, для чего все это? Именно для пользователей это все делается. Поэтому без бета-тестеров мы не можем обойтись ну никак просто.

Однако, наша программа ни чем не хуже по функционалу, чем у конкурентов, но у конкурентов даже в темах люди более живые.

В нашем случае почти могильная тишина.

Мы уже считаем, что смогли сделать достаточно юзабельный и понятный интерфейс.

А кстати этого должно быть уже достаточно. Например такие программы как discrod, slack, что там инновационного?

Другой интерфейс, гораздо более удобный, все структурировано и четко подано. Этого людям оказывается достаточно, как правило. Мы тоже сделали на это упор.

Также я не могу упомянуть и такой момент, что в каждой разработке есть баги, все их исправить невозможно.

Например у одних наших пользователей все хорошо работает, у других программа может падать при старте.

Кто будет пользоваться падающей программой? Да никто ведь не станет!

Но как найти все эти проблемы, если мало бета-тестеров? Тупик получается какой-то...

В любом случае, спасибо вам за совет.

Вышло обновление 1.0.2

Изменения:

  • добавлен частичный перевод на русский язык (как многие просили)
  • убрано ограничение задания максимального размера страницы на сайте
  • доделана опция задания таймаута для запросов
  • убрано отображение пустых полей в фильтре "Пустые meta description"
  • унифицировано затенение фона при показе диалогов

Достаточно просто запустить программу, далее программа обнаружит наличие обновлений и попросит обновиться сама.

В прошлый раз немного сумбурно перечислил основные возможности.

Поэтому решил исправиться и немного структурировать информацию.

Вот что получилось:

И так, далее список с кратким описанием основных возможностей программы.

Основные возможности:

  • Ресурсы сайта - на странице "Все ресурсы" проводится разбиение ссылок по типам ресурсов (html, css, js, image, flash, video, images и т.д.), а также разбиение на внутренние и внешние ресурсы.
  • Обновление страниц - есть возможность обновления данных страниц, чтобы динамически просматривать внесенные вами изменения прямо в процессе анализа сайта!
  • Создание XML карты сайта.
  • Экспорт в excel в один клик.
  • Сохранение состояния анализа сайта для продолжения анализа с той же точки!
  • В программе есть уникальная возможность создания PDF отчета о проведенном техническом анализе сайта.

В программе все данные представлены в виде фильтров.

Это очень удобное разбиение анализируемых параметров.

Каждый фильтр отображает страницы, как группу, например "Дубликаты title" - в этом фильтре будет собрана группа ссылок, дублирующих значение тега "title".

Каждый фильтр можно экспортировать в excel для составления ТЗ технарям по дальнейшей работе с сайтом в один клик.

Список анализируемых параметров:

  • URL - адрес страницы
  • Битые ссылки - поиск битых ссылок с кодом ответа 4хх.
  • Проблемы сервера - поиск ссылок с кодом ответа 5хх.
  • LinkCanonical – определяется наличие атрибута rel="canonical" и на какой адрес он указывает.
  • Ответ – все коды состояния HTTP в ответе сервера.
  • Title – тег "title", расположенный в контейнере "head", который определяет заголовок документа.
  • Description – содержание мета-тега, отвечающего за краткое описание содержимого веб-страницы.
  • Keywords – содержание мета-тега, отвечающего за ключевые слова, встречаемые на веб-странице. Добавлен для справки, т.к. гугл и яндекс не используют его.
  • Редиректы - определяется редирект со страницы, их количество, выводится адрес редиректа, а также происходит обработка страницы редиректа.
  • Заголовки (H1) - количество заголовков первого уровня, а также их пропуск и дубликаты.
  • Заголовки (H2) - количество заголовков второго уровня, а также их пропуск и дубликаты.
  • Ссылки с этой страницы – количество исходящих ссылок с данной страницы в пределах всего сайта.
  • Ссылки на эту страницу – количество входящих ссылок на данную страницу в пределах всего сайта.
  • Внутренние ссылки – количество ссылок с конкретной страницы на сканируемый сайт.
  • Внешние ссылки – количество ссылок с конкретной страницы на другие сайты.
  • Дубли по Title – определяются группы страниц с дублирующимся тегом "title".
  • Дубли по Description – определяются группы страниц с дублирующимся мета-тегом "description".
  • Дубли по Keywords – определяются группы страниц с дублирующимся мета-тегом "keywords".
  • Пропуск Title – определяются группы страниц с отсутствующим или пустым тегом "title".
  • Пропуск Description – определяются группы страниц с отсутствующим или пустым мета-тегом "description".
  • Пропуск Keywords – определяются группы страниц с отсутствующим или пустым мета-тегом "keywords".
  • Несколько Title – определяются группы страниц с наличием 2 и более тегов "title".
  • Несколько Description – определяются группы страниц с наличием 2 и более мета-тегов "description".
  • Несколько Keywords – определяются группы страниц с наличием 2 и более мета-тегов "keywords".
  • Регулировка длины - можно регулировать длину title, desciption, keywords, h1, h2, атрибут alt изображений.
  • Битые изображения - поиск и выделение битых изображений.
  • Атрибут alt изображений - поиск изображений с пустым или отсутствующим атрибутом alt.
  • Meta refresh - определяется наличие meta refresh тега на страницах сайта.
  • Фреймы - определяется наличие фреймов на страницах сайта.

Закрытые от индексации страницы.

В программе имеются фильтры, в которых собраны все ссылки на страницы, закрыте от индексации по определенному критерию.

Вот эти критерии:

  • robots.txt – определяется, разрешена (allowed) или запрещена (disallowed) индексация страницы поисковыми системами в файле robots.txt.
  • Meta Robots - по наличию мета-тега "robots" определяется доступность для индексации страницы. А также разрешен переход по ссылкам на ней или нет.
  • X-Robots-Tag - аналогично Meta Robots, но определение идет на основе заголовка ответа сервера.
  • rel="nofollow" - по атрибутам тега "a" определяется доступность для индексации ссылки на страницу поисковыми системами.

Основные настройки.

Настройки краулера:

  • Вкл/выкл переход по внешним ссылкам.
  • Вкл/выкл переход по внутренним nofollow ссылкам.
  • Вкл/выкл переход по внешним nofollow ссылкам.
  • Вкл/выкл учет canonical страниц.
  • Вкл/выкл переход по адресам поддоменов.
  • Анализ страниц за пределами стартовой папки - помогает ограничить круг ссылок для анализа. Например если вам нужно анализировать ссылки только в определенной папке.
  • Выбор робота, правилам которого следовать при учете robots.txt и meta robots.
  • Вкл/выкл проверку изображений.
  • Вкл/выкл проверку CSS.
  • Вкл/выкл проверку JavaScript.

Отключение анализируемых параметров приведет к ускорению процесса анализа сайта.

Настройки паузы между запросами:

На некоторых сайтах есть защита от частых запросов. При которых включается блокировка.

На этот счет предусмотрено задание паузы между запросами, которая задается в виде диапазона.

Например от 1 секунды до 10 секунд.

Пауза каждый раз будет выбираться случайно для эмуляции человеческого поведения.

Настройки профиля вашей компании:

  • Есть возможность задать имя вашей компании, ее email и адрес вашей компании.
  • Эти данные будут фигурировать как подпись для сгенерированного вами PDF отчета об аудите, который обычно показывают заказчику.
  • Этот данные будут служить визитной карточкой для ваших клиентов.

Настройки лимитов:

  • Максимальная длина ссылки для краулинга - краулер не станет переходить по ссылкам длиннее указанного числа символов. (в разработке)
  • Ограничение количества ссылок для загрузки - краулер не станет загружать больше указанного числа ссылок с сайта. (в разработке)
  • Максимальный таймаут - краулер будет обрывать соединение для загрузки ссылок, превышающие заданный в миллисекундах таймаут.
  • Максимальное количество цепочки редиректов - краулер не станет переходить по цепочке редиректов превышающие указанное число.
  • Максимальное количество ссылок на одной странице - страницы с превышающим заданным вами числом будут попадать в фильтр "Слишком много ссылок на одной странице".

Настройки параметров размера/длины:

  • Минимальная/максимальная длина description - ссылки меньше заданной длины попадут в фильтр "Слишком короткие Meta Description", ссылки превышающие заданную длину попадут в фильтр "Слишком длинные Meta Description".
  • Минимальная/максимальная длина title - ссылки меньше заданной длины попадут в фильтр "Слишком короткие title", ссылки превышающие заданную длину попадут в фильтр "Слишком длинные title".
  • Максимальная длина H1 - ссылки больше заданной длины попадут в фильтр "Слишком длинные H1".
  • Максимальная длина H2 - ссылки больше заданной длины попадут в фильтр "Слишком длинные H2".
  • Максимальный размер страницы в киллобайтах - страницы превышающие заданное число будут попадать в фильтр "Страницы больше N кб". (в разработке)
  • Максимальный размер изображения в киллобайтах - изображения превышающие заданное число будут попадать в фильтр "Изображения больше N кб". (в дорабатывается)
  • Максимальная длина alt атрибута изображения - изображения, где атрибут alt превышает заданное макс. значение попадают в фильтр "Изображения с длинным alt атрибутом".

Для каждого из этих критериев вы можете задать собственные значения и видеть в выдаче ссылки на страницы, выходящие за рамки заданного вами диапазона.

Настройки прокси:

  • Есть возможность использовать прокси для краулинга сайта.
  • Поддерживаются прокси с авторизацией. Можно использовать, в случае, если вас все же заблокировали за частые запросы.

Настройки User Agent:

  • Можно настроить User Agent как мобильный, так и десктопный.
  • Есть заранее определенные строки для User Agent.

Будущий функционал и функционал в разработке:

  • перевод на русский язык (в активной разработке, будет в скором времени).
  • поиск по фрагментам кода на страницах сайта.
  • возможность задания цвета для разных проблемных критериев сайта, вы сможете в списке всех страниц сайта сразу увидеть искомый параметр. Это будет удобным дополнением к фильтрам.
  • древовидное отображение сайта.
  • поле для поиска конкретных страниц.
  • ну и конечно исправление багов, крашей и прочих недоработок.
png clear_data_message.png
png crawler_settings.png
png duplicates_title.png
png feedback_window.png
png http_response.png
burunduk:
AndrAscii, писать то что нужно именно вам

Так мы сами используем свою программу :)

Дело в том, что наши задачи одни, у других немного другие.

Все перечисленное Вами, это по сути маленькие надстройки, которые делаются очень быстро.

Мы хотим выделить основу, которая нужна максимально большому числу людей и сделать ее максимально круто.

Вот в чем наша задача.

burunduk:
так от него толку практически не будет, точнее получиться что-то типа Xenu или сеофрога

понимание задач к всех очень разное ;)

это проблема всех чистых разработчиков - отсутствие понимания что нужно и как нужно

И какой бы Вы выход предложили?

burunduk, Вот Вы опять вырвали из контекста один мой вопрос. Я ведь говорил, с помощью коммьюнити :)

А иначе как сделать что-то ценное, если делаешь это в одиночку без наличия фидбека?

burunduk:
нет, а зачем когда свои парсеры давно написаны и работают? ;)

Так это основной посыл этой темы, призыв к пробам :)

Остальное ведь просто болтовня :)

Почему Вы не допускаете, что у нас может получиться лучше? Тем более с поддержкой коммьюнити? На это прицел :)



---------- Добавлено 14.06.2018 в 16:19 ----------

burunduk:
создаёт ;)
только вот это как раз и нафиг не нужно

Это уже полезная инфа

SmileP:
Бывает нужно раз в месяц примерно.
Обычно делаю "дамп" сайта в текстовые файлы и поиск через notepad++ /командеры.
Там и регулярки есть)
Не думаю что это очень актуально для большинства сайтов. Там можно и ручками посмотреть (ибо малое количество страниц).

Ну Вы, как специалист можете оценить, насколько частая это процедура в массах?

Как часто сеошники с ней сталкиваются? Если действительно часто, то мы прикрутим эту фичу, попробуете на практике.

Вы кстати программу скачали? Признавайтесь! ☝

SmileP:
В Хену паук не идет по редиректу.
Т.е. на странице А стоит редирект на Б. Хену отмечает только наличие редиректа с А, но не идет на Б.
Более поздние пауки обычно ходят.

---------- Добавлено 14.06.2018 в 18:00 ----------


Иногда бывают не тривиальные задачи, которые не делают парсеры. Тогда выгрузка в эксель- наше все :)

Наш паук переходит по редиректу :)

---------- Добавлено 14.06.2018 в 16:04 ----------

SmileP, ну так и у нас есть выгрузка в excel, как всех данных, так и конкретных фильтров. Помимо этого, Xenu не создает карту сайта и не генерирует PDF отчет :)

И да, я знаю, что и это можно сделать вручную, так же как можно и обойти сайт вручную, но смысл ведь не в усложнении жизни? Ну нам так по-крайней мере кажется и мы будем придерживаться этого правила :)

Всего: 65