Ещё не существует софта, который с 99%+ вероятностью отделит нежелательный контент от прочего. Данный софт может лишь помочь найти подозрительные картинки, но это не отменяет ручной проверки. Т.е. просто экономится время, т.к. надо проверять не тысячи фоток, а десяток-другой.
p.s. не использовал софт, ссылку на который вы кидали, и не могу оценить его качество.
По-моему вы немного ошибаетесь. Для seo-оптимизаторов актуальна задача отслеживания позиций сайта в выдаче поисковых систем, а уже в рамках решения данной задачи можно отслеживать, что сайт/страница пропала из выдачи и предпринимать меры.
RDS-bar (наверное и десктопный RDS API).
Во-первых, как это спарсить? Чтобы узнать, какие страницы были переиндексированы, придётся спросмотреть всю выдачу по сайту (сами написали, что страницы не упорядочиваются по дате индексации).
Во-вторых, это можно сделать намного проще, установив специальный скрипт на свой сайт, который будет отслеживать какие (и как часто) страницы посещает бот яндекса/гугла/др.
Код будет наподобие такого:
if (preg_match('/'.BOT_USER_AGENT.'/i', $_SERVER['HTTP_USER_AGENT'])){ //логируем заход бота...}
Это и будет показывать, насколько интересен ваш сайт ботам поисковых систем.
25р за тысячу ссылок.
p.s. наверняка есть бесплатный софт, способный проверить тиц для любого количества доменов.
Контент скан?
radj777, рекомендую проверять url'ы через VirusTotal.
Учиться необходимо, а учиться на чьих-то примерах (пусть и не всегда удачных, по моему мнению) всегда интересно.
Это будет бессмысленно на любом этапе развития приложения :) не важно, бета / не бета. Но смотреть реализации мне всё равно интересно. Тот же Paint.NET (отличный бесплатный графический редактор) исходники не обфусцирует...
Удачи, пару алгоритмов в сети есть, но требует много сил для реализации (имхо).
Ну так не интересно :( правда подход с регулярками для парсинга всего мне не очень нравится...
А вот на это было бы весьма интересно посмотреть (на реализацию)... по-моему непосильная задача, если добиваться достойного результата. Есть немало "определителей тематики", но качество всё равно не радует.
upd. беру свои слова обратно: более-менее достойные реализации определения тематики сайтов/текстов есть, но в контексте данной программы писать свой анализатор имхо бессмысленно.
Побуду занудой от нечего делать: в классе TaskData (который в классе LinksParser), есть монструозный метод 'void LoadPage(string url)'. В нём есть некий flag (наличие флагов - уже сигнал, что творится что-то нехорошее); так вот, зачем там первая проверка 'if (flag) continue;'? Всё равно, он будет всегда false в том месте... p.s. программу не запускал, но посмотреть чужой код всегда интересно.