AndrAscii

vk.com

Рейтинг

Регистрация

22.05.2018

Интересы

Разработка IT продуктов

Разработчик С++ команды RiveSolutions

RiveSolutions SEO Spider

21 июня 2018, 19:42

vold57:
Всю тему не читал. Тестерам дается бесплатный доступ к полному функционалу?

Ну конечно, достаточно просто скачать программу, она сейчас никак не лимитирована.

RiveSolutions SEO Spider

21 июня 2018, 18:23

a1promoseo:
Сколько на рынке таких пауков? Дофига. Сделайте уникальный продукт. Мало собрать инфу, подумайте над тем, как упростить дальнейшую работу с этой информацией + другие фишки.
Просто для примера, пусть собирает ещё топ по семантике, делает общий сравнительный анализ сайтов и постраничный (частично в Алмате реализовано). Сделайте удобную выгрузку из постранично. И так далее

Совет полезный. Спорить с вами не буду.

Дело в том, что для того, чтобы люди пользовались этим софтом, нужно чтобы он удовлетворял все их потребности.

Но у каждого они разные. Поэтому нам и нужны люди, которые начнут активно использовать программу и оставлять фидбек, далее самые частые просьбы будут реализованы.

Видимо у меня слабо развит навык доносить информацию до людей.

Но мой основной посыл в том, чтобы люди присоединились к тестированию, опробовали программу в боевых условиях.

Так вы сами сможете регулировать дальнейшую разработку. Что толку от того, что мы дальше будем ее разрабатывать просто так, это все равно что в сферический конь в вакууме, для чего все это? Именно для пользователей это все делается. Поэтому без бета-тестеров мы не можем обойтись ну никак просто.

Однако, наша программа ни чем не хуже по функционалу, чем у конкурентов, но у конкурентов даже в темах люди более живые.

В нашем случае почти могильная тишина.

Мы уже считаем, что смогли сделать достаточно юзабельный и понятный интерфейс.

А кстати этого должно быть уже достаточно. Например такие программы как discrod, slack, что там инновационного?

Другой интерфейс, гораздо более удобный, все структурировано и четко подано. Этого людям оказывается достаточно, как правило. Мы тоже сделали на это упор.

Также я не могу упомянуть и такой момент, что в каждой разработке есть баги, все их исправить невозможно.

Например у одних наших пользователей все хорошо работает, у других программа может падать при старте.

Кто будет пользоваться падающей программой? Да никто ведь не станет!

Но как найти все эти проблемы, если мало бета-тестеров? Тупик получается какой-то...

В любом случае, спасибо вам за совет.

RiveSolutions SEO Spider

18 июня 2018, 08:48

Вышло обновление 1.0.2

Изменения:

добавлен частичный перевод на русский язык (как многие просили)
убрано ограничение задания максимального размера страницы на сайте
доделана опция задания таймаута для запросов
убрано отображение пустых полей в фильтре "Пустые meta description"
унифицировано затенение фона при показе диалогов

Достаточно просто запустить программу, далее программа обнаружит наличие обновлений и попросит обновиться сама.

RiveSolutions SEO Spider

17 июня 2018, 14:34

В прошлый раз немного сумбурно перечислил основные возможности.

Поэтому решил исправиться и немного структурировать информацию.

Вот что получилось:

И так, далее список с кратким описанием основных возможностей программы.

Основные возможности:

Ресурсы сайта - на странице "Все ресурсы" проводится разбиение ссылок по типам ресурсов (html, css, js, image, flash, video, images и т.д.), а также разбиение на внутренние и внешние ресурсы.
Обновление страниц - есть возможность обновления данных страниц, чтобы динамически просматривать внесенные вами изменения прямо в процессе анализа сайта!
Создание XML карты сайта.
Экспорт в excel в один клик.
Сохранение состояния анализа сайта для продолжения анализа с той же точки!
В программе есть уникальная возможность создания PDF отчета о проведенном техническом анализе сайта.

В программе все данные представлены в виде фильтров.

Это очень удобное разбиение анализируемых параметров.

Каждый фильтр отображает страницы, как группу, например "Дубликаты title" - в этом фильтре будет собрана группа ссылок, дублирующих значение тега "title".

Каждый фильтр можно экспортировать в excel для составления ТЗ технарям по дальнейшей работе с сайтом в один клик.

Список анализируемых параметров:

URL - адрес страницы
Битые ссылки - поиск битых ссылок с кодом ответа 4хх.
Проблемы сервера - поиск ссылок с кодом ответа 5хх.
LinkCanonical – определяется наличие атрибута rel="canonical" и на какой адрес он указывает.
Ответ – все коды состояния HTTP в ответе сервера.
Title – тег "title", расположенный в контейнере "head", который определяет заголовок документа.
Description – содержание мета-тега, отвечающего за краткое описание содержимого веб-страницы.
Keywords – содержание мета-тега, отвечающего за ключевые слова, встречаемые на веб-странице. Добавлен для справки, т.к. гугл и яндекс не используют его.
Редиректы - определяется редирект со страницы, их количество, выводится адрес редиректа, а также происходит обработка страницы редиректа.
Заголовки (H1) - количество заголовков первого уровня, а также их пропуск и дубликаты.
Заголовки (H2) - количество заголовков второго уровня, а также их пропуск и дубликаты.
Ссылки с этой страницы – количество исходящих ссылок с данной страницы в пределах всего сайта.
Ссылки на эту страницу – количество входящих ссылок на данную страницу в пределах всего сайта.
Внутренние ссылки – количество ссылок с конкретной страницы на сканируемый сайт.
Внешние ссылки – количество ссылок с конкретной страницы на другие сайты.
Дубли по Title – определяются группы страниц с дублирующимся тегом "title".
Дубли по Description – определяются группы страниц с дублирующимся мета-тегом "description".
Дубли по Keywords – определяются группы страниц с дублирующимся мета-тегом "keywords".
Пропуск Title – определяются группы страниц с отсутствующим или пустым тегом "title".
Пропуск Description – определяются группы страниц с отсутствующим или пустым мета-тегом "description".
Пропуск Keywords – определяются группы страниц с отсутствующим или пустым мета-тегом "keywords".
Несколько Title – определяются группы страниц с наличием 2 и более тегов "title".
Несколько Description – определяются группы страниц с наличием 2 и более мета-тегов "description".
Несколько Keywords – определяются группы страниц с наличием 2 и более мета-тегов "keywords".
Регулировка длины - можно регулировать длину title, desciption, keywords, h1, h2, атрибут alt изображений.
Битые изображения - поиск и выделение битых изображений.
Атрибут alt изображений - поиск изображений с пустым или отсутствующим атрибутом alt.
Meta refresh - определяется наличие meta refresh тега на страницах сайта.
Фреймы - определяется наличие фреймов на страницах сайта.

Закрытые от индексации страницы.

В программе имеются фильтры, в которых собраны все ссылки на страницы, закрыте от индексации по определенному критерию.

Вот эти критерии:

robots.txt – определяется, разрешена (allowed) или запрещена (disallowed) индексация страницы поисковыми системами в файле robots.txt.
Meta Robots - по наличию мета-тега "robots" определяется доступность для индексации страницы. А также разрешен переход по ссылкам на ней или нет.
X-Robots-Tag - аналогично Meta Robots, но определение идет на основе заголовка ответа сервера.
rel="nofollow" - по атрибутам тега "a" определяется доступность для индексации ссылки на страницу поисковыми системами.

Основные настройки.

Настройки краулера:

Вкл/выкл переход по внешним ссылкам.
Вкл/выкл переход по внутренним nofollow ссылкам.
Вкл/выкл переход по внешним nofollow ссылкам.
Вкл/выкл учет canonical страниц.
Вкл/выкл переход по адресам поддоменов.
Анализ страниц за пределами стартовой папки - помогает ограничить круг ссылок для анализа. Например если вам нужно анализировать ссылки только в определенной папке.
Выбор робота, правилам которого следовать при учете robots.txt и meta robots.
Вкл/выкл проверку изображений.
Вкл/выкл проверку CSS.
Вкл/выкл проверку JavaScript.

Отключение анализируемых параметров приведет к ускорению процесса анализа сайта.

Настройки паузы между запросами:

На некоторых сайтах есть защита от частых запросов. При которых включается блокировка.

На этот счет предусмотрено задание паузы между запросами, которая задается в виде диапазона.

Например от 1 секунды до 10 секунд.

Пауза каждый раз будет выбираться случайно для эмуляции человеческого поведения.

Настройки профиля вашей компании:

Есть возможность задать имя вашей компании, ее email и адрес вашей компании.
Эти данные будут фигурировать как подпись для сгенерированного вами PDF отчета об аудите, который обычно показывают заказчику.
Этот данные будут служить визитной карточкой для ваших клиентов.

Настройки лимитов:

Максимальная длина ссылки для краулинга - краулер не станет переходить по ссылкам длиннее указанного числа символов. (в разработке)
Ограничение количества ссылок для загрузки - краулер не станет загружать больше указанного числа ссылок с сайта. (в разработке)
Максимальный таймаут - краулер будет обрывать соединение для загрузки ссылок, превышающие заданный в миллисекундах таймаут.
Максимальное количество цепочки редиректов - краулер не станет переходить по цепочке редиректов превышающие указанное число.
Максимальное количество ссылок на одной странице - страницы с превышающим заданным вами числом будут попадать в фильтр "Слишком много ссылок на одной странице".

Настройки параметров размера/длины:

Минимальная/максимальная длина description - ссылки меньше заданной длины попадут в фильтр "Слишком короткие Meta Description", ссылки превышающие заданную длину попадут в фильтр "Слишком длинные Meta Description".
Минимальная/максимальная длина title - ссылки меньше заданной длины попадут в фильтр "Слишком короткие title", ссылки превышающие заданную длину попадут в фильтр "Слишком длинные title".
Максимальная длина H1 - ссылки больше заданной длины попадут в фильтр "Слишком длинные H1".
Максимальная длина H2 - ссылки больше заданной длины попадут в фильтр "Слишком длинные H2".
Максимальный размер страницы в киллобайтах - страницы превышающие заданное число будут попадать в фильтр "Страницы больше N кб". (в разработке)
Максимальный размер изображения в киллобайтах - изображения превышающие заданное число будут попадать в фильтр "Изображения больше N кб". (в дорабатывается)
Максимальная длина alt атрибута изображения - изображения, где атрибут alt превышает заданное макс. значение попадают в фильтр "Изображения с длинным alt атрибутом".

Для каждого из этих критериев вы можете задать собственные значения и видеть в выдаче ссылки на страницы, выходящие за рамки заданного вами диапазона.

Настройки прокси:

Есть возможность использовать прокси для краулинга сайта.
Поддерживаются прокси с авторизацией. Можно использовать, в случае, если вас все же заблокировали за частые запросы.

Настройки User Agent:

Можно настроить User Agent как мобильный, так и десктопный.
Есть заранее определенные строки для User Agent.

Будущий функционал и функционал в разработке:

перевод на русский язык (в активной разработке, будет в скором времени).
поиск по фрагментам кода на страницах сайта.
возможность задания цвета для разных проблемных критериев сайта, вы сможете в списке всех страниц сайта сразу увидеть искомый параметр. Это будет удобным дополнением к фильтрам.
древовидное отображение сайта.
поле для поиска конкретных страниц.
ну и конечно исправление багов, крашей и прочих недоработок.

png clear_data_message.png

png crawler_settings.png

png duplicates_title.png

png feedback_window.png

png http_response.png

RiveSolutions SEO Spider

14 июня 2018, 14:39

burunduk:
AndrAscii, писать то что нужно именно вам

Так мы сами используем свою программу :)

Дело в том, что наши задачи одни, у других немного другие.

Все перечисленное Вами, это по сути маленькие надстройки, которые делаются очень быстро.

Мы хотим выделить основу, которая нужна максимально большому числу людей и сделать ее максимально круто.

Вот в чем наша задача.

RiveSolutions SEO Spider

14 июня 2018, 14:22

burunduk:
так от него толку практически не будет, точнее получиться что-то типа Xenu или сеофрога

понимание задач к всех очень разное ;)

это проблема всех чистых разработчиков - отсутствие понимания что нужно и как нужно

И какой бы Вы выход предложили?

RiveSolutions SEO Spider

14 июня 2018, 13:47

burunduk, Вот Вы опять вырвали из контекста один мой вопрос. Я ведь говорил, с помощью коммьюнити :)

А иначе как сделать что-то ценное, если делаешь это в одиночку без наличия фидбека?

RiveSolutions SEO Spider

14 июня 2018, 13:19

burunduk:
нет, а зачем когда свои парсеры давно написаны и работают? ;)

Так это основной посыл этой темы, призыв к пробам :)

Остальное ведь просто болтовня :)

Почему Вы не допускаете, что у нас может получиться лучше? Тем более с поддержкой коммьюнити? На это прицел :)

---------- Добавлено 14.06.2018 в 16:19 ----------

burunduk:
создаёт ;)
только вот это как раз и нафиг не нужно

Это уже полезная инфа

RiveSolutions SEO Spider

14 июня 2018, 13:13

SmileP:
Бывает нужно раз в месяц примерно.
Обычно делаю "дамп" сайта в текстовые файлы и поиск через notepad++ /командеры.
Там и регулярки есть)
Не думаю что это очень актуально для большинства сайтов. Там можно и ручками посмотреть (ибо малое количество страниц).

Ну Вы, как специалист можете оценить, насколько частая это процедура в массах?

Как часто сеошники с ней сталкиваются? Если действительно часто, то мы прикрутим эту фичу, попробуете на практике.

Вы кстати программу скачали? Признавайтесь! ☝

RiveSolutions SEO Spider

14 июня 2018, 13:02

SmileP:
В Хену паук не идет по редиректу.
Т.е. на странице А стоит редирект на Б. Хену отмечает только наличие редиректа с А, но не идет на Б.
Более поздние пауки обычно ходят.

---------- Добавлено 14.06.2018 в 18:00 ----------

Иногда бывают не тривиальные задачи, которые не делают парсеры. Тогда выгрузка в эксель- наше все :)

Наш паук переходит по редиректу :)

---------- Добавлено 14.06.2018 в 16:04 ----------

SmileP, ну так и у нас есть выгрузка в excel, как всех данных, так и конкретных фильтров. Помимо этого, Xenu не создает карту сайта и не генерирует PDF отчет :)

И да, я знаю, что и это можно сделать вручную, так же как можно и обойти сайт вручную, но смысл ведь не в усложнении жизни? Ну нам так по-крайней мере кажется и мы будем придерживаться этого правила :)

1 2 3 4 5 6 7

Всего: 65

Что делать, если ваша email-рассылка попала в спам

VK приобрела 70% в структуре компании-разработчика red_mad_robot

AndrAscii