Могу порекомендовать обратиться к руководителю моей магистрской работы "Исследование и разработка информационно-поисковых систем", компьютерная лингвистика - это его конек.
Зовут его Теленик Сергей Федорович, д.т.н., профессор, заведующий кафедры АУТС Факультета информатики и вычислительной техники НТУУ "КПИ".
Дисциплины: Дискретный анализ; компьютерная лингвистика; программирование в абстрактных средах объектов; проектирование систем искусственного интеллекта; математическая логика; теория алгоритмов.
Научное направление: Проектирование систем управления. Автоматизация проектирования и программирования. Математическая логика. Компьютерная лингвистика. Искусственный интеллект.
Контакты:
e-mail: telenik(ухо)auts.ntu-kpi.kiev.ua
Украина, г.Киев, пр. Победы 37, НТУУ "КПИ" корп. 18, комн. 528
тел: (044) 274-52-61, 241-70-39, 441-16-57
Единственное - насколько я знаю, сейчас он в отпуске и появится только в конце августа.
С днем рождения!
Желаю всегда быть самым Первым во Всем! :)
Похоже, что ранк страниц с ключевыми словами, найденными в заголовках документов, не слишком влияет на выдачу. Например, по запросу Собачье сердце в первой десятке нет ничего релевантного, хотя первой и идет электронная библиотека. Наиболее релевантной здесь, скорее всего, будет страница, содержащая ключевые слова в заголовке - сравните тот же запрос в Яндексе и Гугле.
Кстати, а чья украинская морфология - Рута?
Да ладно тебе, Антон, не нужна Яндексу Украина - и бог с ним. Может они решили национального производителя поддержать :)
Кстати говоря, подобная проблема на форуме уже
обуждалась.
По решению этой задачи - по моему опыту, техническое задание занимает ни много, ни мало, но около 50 листов. Правда, с учетом того, что полученную информацию нужно еще структурировать, то есть определять тематику, извлекать тексты и атрибуты собранных документов.
За месяц такую программу не напишешь.
news clipping или news monitoring - специализированные сервисы, предназначенные для сбора и хранения новой информации - новостей, пресс-релизов, статей и т.д. На Западе используются, как правило, для того, чтобы всегда быть в курсе того, что о компании пишет пресса, мониторинга деятельности конкурентов, отслеживания событий и тенденций на различных рынках и т.д.
Суть сервиса - вы подписываетесь на новостные потоки, идущие с интересующих новостных сайтов, определяете нужные ключевые слова и темы, и получаете только отсортированную информацию, представляющую какой-то интерес. В России это в какой-то мере реализовано в подписке Яндекс-Новостей.
Посмотрите этот обзор новостных поисковиков и сделайте выводы.
Не совсем понятно, в чем конкретно заключается вопрос. Если автоматизированный сбор неструктурированной информации, такой, как новости и статьи, то это -
news clipping.
К сожалению, это не совсем так. Дата индексации документа совершенно ничего не говорит о том, когда этот документ был создан, а показывает лишь дату обнаружения этого документа поисковиком. Это хорошо заметно, например, если подписаться на новые документы в Яндексе - часто он индексирует устаревшие документы, появившиеся несколько лет назад, но до которых только дошел его робот. Поэтому типичные поисковые системы здесь мало чем помогут.
Крепкой и счастливой вам любви!