- Для мониторинга ситуации за определенный период (например социльно-экономического развития регионов центрального федерального округа);
- Для обзоров, какие факторы влияют на деятельность компании (например для темы "мосэнерго" будет куча подтем: земельные отношения, тарифы, аскуэ, реализация интересов на форэм, энергоэффективные технологии, реформирование, сети, непрофильные активы и т.д.). по терминам можно определить наиболее значимые подтемы;
- и быстрое "погружение" в незнакомую тему. :)
По всей видимости произошла путаница в терминологии.
Запрос - тот запрос, который отправляется на поисковик (та строчка, которая отсылается поисковику) по интересующей меня теме.
Документы - это результат работы поисковика, то есть страницы наиболее близкие к запросу.
Реферат - смысловая выжимка документа. В данном случае реферат я понимаю как: при анализе документа, строится семантическая сеть (в узлах которой находятся наиболее значимые термины, а близость к смыслу определяется весом связи между узлами), из которой вытаскиваются те фразы, в которых присутствуют термины с наибольшим весом связи в семантической сети.
Отчет - файл с рефератами нескольких документов.
Термины - наиболее значимые слова или фразы близкие по смыслу к запросу.
Как я понял ни один поисковик не умеет делать то, что мне надо. Значит вопрос переходит в плоскость софта, который это умеет.
Всё что я перечислил можно сделать руками. :) Отослать запрос на поисковик, скачать первые 30-50 документов (страниц), сохранить в виде текста, с помощью TextAnalyst построить сеть, посмотреть наиболее значимые термины, сделать рефераты нужных документов, объединить их в один файл. Вообщем, это занимает кучу времени, поэтому хочется некоторой автоматизации. :) Вот я и спрашиваю, может кто-нибудь знает, какой софт это умеет делать?
PS TextAnalyst, TextRefearer можно посмотреть на www.analyst.ru или на www.megaputer.com
насколько я понимаю, такой способ вполне реализуем. когда по каждой странице строится семантическая сеть, потом все сети объединяются в онтологию. при поиске вытаскиваются только те документы, которые имеют наибольший вес по связям.