folio

Рейтинг
1
Регистрация
29.11.2003
Интересы
search
Как писал Vyacheslav Tikhonov

Скорее всего, такую программу вряд ли где-то можно взять бесплатно. А для каких целей это нужно, если не секрет?

- Для мониторинга ситуации за определенный период (например социльно-экономического развития регионов центрального федерального округа);

- Для обзоров, какие факторы влияют на деятельность компании (например для темы "мосэнерго" будет куча подтем: земельные отношения, тарифы, аскуэ, реализация интересов на форэм, энергоэффективные технологии, реформирование, сети, непрофильные активы и т.д.). по терминам можно определить наиболее значимые подтемы;

- и быстрое "погружение" в незнакомую тему. :)

По всей видимости произошла путаница в терминологии.

Запрос - тот запрос, который отправляется на поисковик (та строчка, которая отсылается поисковику) по интересующей меня теме.

Документы - это результат работы поисковика, то есть страницы наиболее близкие к запросу.

Реферат - смысловая выжимка документа. В данном случае реферат я понимаю как: при анализе документа, строится семантическая сеть (в узлах которой находятся наиболее значимые термины, а близость к смыслу определяется весом связи между узлами), из которой вытаскиваются те фразы, в которых присутствуют термины с наибольшим весом связи в семантической сети.

Отчет - файл с рефератами нескольких документов.

Термины - наиболее значимые слова или фразы близкие по смыслу к запросу.

Как я понял ни один поисковик не умеет делать то, что мне надо. Значит вопрос переходит в плоскость софта, который это умеет.

Всё что я перечислил можно сделать руками. :) Отослать запрос на поисковик, скачать первые 30-50 документов (страниц), сохранить в виде текста, с помощью TextAnalyst построить сеть, посмотреть наиболее значимые термины, сделать рефераты нужных документов, объединить их в один файл. Вообщем, это занимает кучу времени, поэтому хочется некоторой автоматизации. :) Вот я и спрашиваю, может кто-нибудь знает, какой софт это умеет делать?

PS TextAnalyst, TextRefearer можно посмотреть на www.analyst.ru или на www.megaputer.com

насколько я понимаю, такой способ вполне реализуем. когда по каждой странице строится семантическая сеть, потом все сети объединяются в онтологию. при поиске вытаскиваются только те документы, которые имеют наибольший вес по связям.