Автореферирование документа - снипеты и проч.

yourich
На сайте с 21.06.2003
Offline
38
4893

Как то видел в этом разделе топик по системам автореферирования , сейчас его нет, а тема актуальна - поделитесь пожалуйста ссылками .

Вот например http://www.dialog-21.ru/Archive/2004/Stupin.htm .

yourich
На сайте с 21.06.2003
Offline
38
#1
yourich:
Как то видел в этом разделе топик по системам автореферирования , сейчас его нет, а тема актуальна - поделитесь пожалуйста ссылками .

Вот например http://www.dialog-21.ru/Archive/2004/Stupin.htm .

PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.

W
На сайте с 23.09.2004
Offline
40
#2
yourich:
PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.

получение сниппетов и "смысловое" автореферирование больших документов - фактически совершенно разные задачи

насчет автореферирования смотрите SUMMAC TIPSTER (http://www-nlpir.nist.gov/related_projects/tipster_summac/) и DUC (http://duc.nist.gov/)

есть задача - контекстно-зависимое реферирование, то есть выжимка по заданной теме

формально - сниппет в SERP - тоже "контестно-зависимая аннотация", но главные задачи при формировании сниппета другая - наличие соответствия запросу и быстрота формирования

проще всего достигается нахождением первого максимального пересечения запроса и текста (обычно заранее разбитого на фиксированные - часто одинаковые - куски)

yourich
На сайте с 21.06.2003
Offline
38
#3
walker:


формально - сниппет в SERP - тоже "контестно-зависимая аннотация", но главные задачи при формировании сниппета другая - наличие соответствия запросу и быстрота формирования

проще всего достигается нахождением первого максимального пересечения запроса и текста (обычно заранее разбитого на фиксированные - часто одинаковые - куски)

Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла, а не снипет.

В принципе, прогнав текст через TF*IDF - я получу нарезку наиболее важных слов/словосочетаний документа. Это будет быстро и качественно (применимо к условиям моей задачи). Т.е. мне нужно на входе - текст, на выходе - выжимка.

В соседнем топике нашел список опенсорс движков http://www.searchtools.com/tools/tools-opensource.html - может кто-то разбирался с ними и скажет - можно ли их использовать для решения этой задачи ? Или может быть есть готовый инструмент для этого, т.к. хотя вроде всё просто, но не хочется "изобретать велосипед" .

W
На сайте с 23.09.2004
Offline
40
#4
yourich:
Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла... .

надо все-таки почитать отчет по SUMMAC - техник много (значит нет одного решения), одни лучше, другие хуже

главное для Вас, что разрыв невелик - то есть для простых потребностей подойдет и простейшая схема, иначе - сферхфразовое единство, связность, лексические цепочки и так далее

M
На сайте с 29.03.2003
Offline
65
#5
yourich:


В соседнем топике нашел список опенсорс движков http://www.searchtools.com/tools/tools-opensource.html - может кто-то разбирался с ними и скажет - можно ли их использовать для решения этой задачи ? Или может быть есть готовый инструмент для этого, т.к. хотя вроде всё просто, но не хочется "изобретать велосипед" .

В DataparkSearch есть Алгоритм Построения Рефератов (SEA, Summary Extraction Algorithm): http://www.dataparksearch.org/dpsearch-rel.ru.html#sea

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
[Удален]
#6

Есть простенький алгоритм создания автореферата в версии 2.1

сайтового движка Румба

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий