BlueRay

BlueRay
Рейтинг
38
Регистрация
09.03.2011
KraftWerk:

Запустил с настройками по умолчанию, он навыбирал и нормальные и несколько эротических из тестовой папки. Странно, а сайт у них вроде убедительный.

Ещё не существует софта, который с 99%+ вероятностью отделит нежелательный контент от прочего. Данный софт может лишь помочь найти подозрительные картинки, но это не отменяет ручной проверки. Т.е. просто экономится время, т.к. надо проверять не тысячи фоток, а десяток-другой.

p.s. не использовал софт, ссылку на который вы кидали, и не могу оценить его качество.

Alender:

задача вроде очень актуальная для всех SEO-шников...

По-моему вы немного ошибаетесь. Для seo-оптимизаторов актуальна задача отслеживания позиций сайта в выдаче поисковых систем, а уже в рамках решения данной задачи можно отслеживать, что сайт/страница пропала из выдачи и предпринимать меры.

RDS-bar (наверное и десктопный RDS API).

Во-первых, как это спарсить? Чтобы узнать, какие страницы были переиндексированы, придётся спросмотреть всю выдачу по сайту (сами написали, что страницы не упорядочиваются по дате индексации).

Во-вторых, это можно сделать намного проще, установив специальный скрипт на свой сайт, который будет отслеживать какие (и как часто) страницы посещает бот яндекса/гугла/др.

Код будет наподобие такого:


if (preg_match('/'.BOT_USER_AGENT.'/i', $_SERVER['HTTP_USER_AGENT']))
{
//логируем заход бота...
}

Это и будет показывать, насколько интересен ваш сайт ботам поисковых систем.

partneram:
А платных онлайн сервисов нет?

25р за тысячу ссылок.

p.s. наверняка есть бесплатный софт, способный проверить тиц для любого количества доменов.

Контент скан?

radj777, рекомендую проверять url'ы через VirusTotal.

Webparser:
BlueRay Извините, но я думаю нет смысла смотреть на чужой код. Нужно учиться и развивать свои идеи).

Учиться необходимо, а учиться на чьих-то примерах (пусть и не всегда удачных, по моему мнению) всегда интересно.

Webparser:
А как что реализовано, я думаю пока нет смысла это обсуждать программу дорабатывают пока только Бета версия)

Это будет бессмысленно на любом этапе развития приложения :) не важно, бета / не бета. Но смотреть реализации мне всё равно интересно. Тот же Paint.NET (отличный бесплатный графический редактор) исходники не обфусцирует...

Webparser:
Тематику сайта, уже начал разрабатывать) Пока проверяем насколько это будет эффективно.

Удачи, пару алгоритмов в сети есть, но требует много сил для реализации (имхо).

Webparser:
BlueRay спасибо, закрыли код от чужих глаз)

Ну так не интересно :( правда подход с регулярками для парсинга всего мне не очень нравится...

Webparser:
Определение тематики сайта

А вот на это было бы весьма интересно посмотреть (на реализацию)... по-моему непосильная задача, если добиваться достойного результата. Есть немало "определителей тематики", но качество всё равно не радует.

upd. беру свои слова обратно: более-менее достойные реализации определения тематики сайтов/текстов есть, но в контексте данной программы писать свой анализатор имхо бессмысленно.

Побуду занудой от нечего делать: в классе TaskData (который в классе LinksParser), есть монструозный метод 'void LoadPage(string url)'. В нём есть некий flag (наличие флагов - уже сигнал, что творится что-то нехорошее); так вот, зачем там первая проверка 'if (flag) continue;'? Всё равно, он будет всегда false в том месте...
p.s. программу не запускал, но посмотреть чужой код всегда интересно.

Всего: 328