Тема для кандидатской, например - Использование лексических цепочек для создания дайджестов или обзоров прессы. Весьма востребовано. :)
А Вас только Яндекс-блоги интересуют? А если взять весь охват Интернета в режиме реального времени?
Google вроде бы закрыл API несколько лет назад, даже для некоммерческих организаций, а вот Yahoo до сих пор успешно раздает.
По оптимизации нужно делать отдельную конференцию - слушатели пошли не те, что раньше. Сейчас в основном люди приходят послушать о последних тенденциях развития украинского интернета, да и потусоваться и наработать новые контакты.
Забавно - получается, судя по этому закону, публикация на любом сайте чужого текста с подписью автора и указанием печатного источника не наказывается украинским законодательством.
Еще есть хороший и быстрый способ получить словарь по нужной тематике. Если есть готовая база, можно прогнать по ней базовый список запросов из семантического ядра и получить поиском список документов - если один и тот же документ будет находиться несколькими характерными запросами, можно с заданной вероятностью относить его к нужной рубрике. Дальше дело техники - разобрать тексты на лексемы и посчитать словари.
Метод хорош тем, что может работать совершенно автономно, дополняя готовые словари новыми терминами.
Аргументируйте, а то ваш пост выглядит, прямо скажем, некрасиво.
Goodwin, я и делом занимаюсь, а не языком треплю. Если кому-то что-то не нравится, идет изучать форумы по разведению домашних животных. ;)
Штраф за флуд. Вы правы, с такими "экспертами" форум точно деградирует..
Проблема в том, что набрать столько обезьянок, которые бы оценили в течение часа поток из нескольких тысяч документов, нереально. Нужно программное решение.
Обычно чем сложнее задача, тем интереснее ее решать. Здесь точно есть какая-то фишка, лежащая в области психологии, а не информационных технологий. Например, средняя длина слов в тексте меньше, если хвалят, и больше, если ругают. :)
Не похоже, чтобы все это на сайте делал автомат.