Хочу сделать программу для выявления битых ссылок на сайтах

M1
На сайте с 22.04.2016
Offline
0
1283

Здравствуйте уважаемое сообщество,

Хочу реализовать удобную программу для проверки битых ссылок на сайтах. Цель реализации -- сделать удобный продукт, которым будет удобно пользоваться и, если получится, заработать денег.

Я обычный разработчик и не очень понимаю рынка программ для SEO оптимизации. Идея возникла, когда я захотел на своем блоге выявить битые ссылки. Я нашел много программных решений, как desktop так и SaaS, но не нашел удобного решения заточенного только под сканирование битых ссылок.

Вот список:

Desktop

Freeware

http://home.snafu.de/tilman/xenulink.html

Shareware

https://www.page-weight.ru/

SaaS

Freeware

https://validator.w3.org/checklink

http://old.graffity.biz/products/link_checker

http://anybrowser.com/linkchecker.html

http://netpeak.us/software/netpeak-spider/

Shareware

https://linktiger.com/

http://badlinks.ru/

http://www.internetmarketingninjas.com/seo-tools/google-sitemap-generator/

https://www.screamingfrog.co.uk/seo-spider/

Я поискал в Интернете обзоры и отзывы о этих программах:

https://devaka.ru/articles/xenu-link-sleuth

http://politicon1.at.ua/forum/41-451-2#49559

http://blog.aweb.ua/besplatnyj-instrument-dlya-proverki-bityx-ssylok-i-fajlov-ot-ninjas-marketing/

http://www.cryer.co.uk/resources/link_checkers.htm

Сформировал список требований:

  • настройка правила что считать битой ссылкой (считать ли битой ссылкой страницу с кодом 200 и текстом «страница не найдена», возможность задать шаблон текста «старница не найдена»);
  • java script ссылки (есть свои сложности);
  • карта сайта в формате http://www.sitemaps.org/protocol.html (не уверен что это точно нужно);
  • возможность считать адрес с www. и без www. одним и тем же сайтом
  • проверять ссылки на изображения;
  • возможность включить/выключить проверку внешних ссылок;
  • настройка списка внутренних ссылок (Считать ссылки с этих сайтов внутренними (каждый на новой строке, с http://):);
  • настройка исключений (например, не сканировать блог);
  • настройка глубины сканирования;
  • настройка количества выделенных потоков (чем больше, тем больше нагрузка на сайт и увеличивается скорость сканирования);
  • возможность автоматической плановой проверки;
  • для плановой проверки — настроить время начала сканирования, например ночью что бы уменьшить нагрузку на сайт;
  • составление отчетов в разных форматах, в том числе на электронную почту;
  • настройка таймаута, для медленных сайтов;
  • показывать адреса с редиректом 301/302 статусы;
  • возможность сканировать не только http;
  • интерфейс на разных языках;
  • работа с поддоменами;
  • гибкая настройка исключений (возможность использовать регулярные выражения и исключать параметры из URL, например ссылки http://localhost.ru/api?_fields=field1,field2&filter=A и http://localhost.ru/api?_fields=field1,field2&filter=B считать одинаковыми);
  • оптимизация под популярные движки (WordPress, Joomla);
  • оптимизация под популярные сайты, например проверка доступности видео на youtube и т.д..

Пишу на этот форум, так как данное сообщество является целевой аудиторией подобных продуктов. Если не затруднит, помогите дополнить список требований и выскажите свое мнение по поводу целесообразности данной затеи.

Спасибо.

IBakalov
На сайте с 05.10.2011
Offline
218
#1

Есть Screaming Frog SEO Spider, для 95% задач его за глаза.

ShumiL
На сайте с 07.11.2014
Offline
49
#2

Еще как вариант Netpeak Spider

markoff
На сайте с 13.01.2006
Offline
116
#3

Еще есть http://icelab.ru бесплатный

Moonlight and vodka, takes me away... IceLab.ru -онлайн аудит сайта бесплатно (http://icelab.ru)
Focky
На сайте с 09.06.2013
Offline
80
#4

Да бросьте. Полно уже и так решений, прохода нет. Лучше в соседний топик загляните на счет сео-планировщика..

Покупаю ссылки с качественных сайтов строительных тематик. Рассмотрю любые варианты. Личка.
Katrin1988
На сайте с 14.03.2012
Offline
78
#5

Продукт будет потом платный?

LinkBoss.net - Трастовые ссылки для увеличения трафика в 10 раз! (http://linkboss.net/)
*
На сайте с 08.09.2009
Offline
184
#6

внутренние ссылки есть чем проверять, нужен софт/скрипт именно для проверки внешних ссылок, именно это я сейчас и ищу /ru/forum/932139

Принцип у софта простой - паук гуляет по сайту, просматривает все страницы, причем чтобы не гулять бесконечно, ведет внутренний лог и если на данной странице программа уже была, то повторно из внутренних перелинковок она уже на неё не заходит. Во время сканирования ищет в коде внешние ссылки, не принадлежащие данному сайту и проверяет их на доступность, переходя по ним. Если код ответа 200, пропускаем, если другой, формируем отчет по кодам ответа и ссылкам с этими кодами.

Такое можете реализовать?

M1
На сайте с 22.04.2016
Offline
0
#7
*NR*:
внутренние ссылки есть чем проверять, нужен софт/скрипт именно для проверки внешних ссылок, именно это я сейчас и ищу /ru/forum/932139

Принцип у софта простой - паук гуляет по сайту, просматривает все страницы, причем чтобы не гулять бесконечно, ведет внутренний лог и если на данной странице программа уже была, то повторно из внутренних перелинковок она уже на неё не заходит. Во время сканирования ищет в коде внешние ссылки, не принадлежащие данному сайту и проверяет их на доступность, переходя по ним. Если код ответа 200, пропускаем, если другой, формируем отчет по кодам ответа и ссылкам с этими кодами.

Такое можете реализовать?

И такое тоже хочу реализовать. У меня уже есть первая, на коленке сделанная, версия http://contentmonitor-maximpedich.rhcloud.com/

---------- Добавлено 25.04.2016 в 13:13 ----------

Katrin1988:
Продукт будет потом платный?

Ну, вообще хотелось бы. Но изначально хочется сделать хороший продукт, что бы у людей была мотивация платить за него. О модели монетизации еще не думал.

BlagFurer
На сайте с 09.12.2009
Offline
79
#8
maximp1:
Я обычный разработчик и не очень понимаю рынка программ для SEO оптимизации.

Те кто давно занимаются SEO отлично знают весь софт, позволяющий отследить все 404 ошибки... это и SeoScreaminFrog и всякие netpeak spider, comparser, xenu, да мало ли. Saas решения не отстают - seoto.me и куча других.

В каждом из этих решений как правило есть отдельный отчет - источники 404 ошибок.

А вообще 404 ошибка никак не влияет на ранжирование, если мы за SEO

https://support.google.com/webmasters/answer/2409439?hl=ru&ref_topic=2446029

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий