Автореферирование документа - снипеты и проч. - Поисковые технологии - Практические вопросы оптимизации

38

yourich

23 февраля 2008, 10:13

4921

Как то видел в этом разделе топик по системам автореферирования , сейчас его нет, а тема актуальна - поделитесь пожалуйста ссылками .

Вот например http://www.dialog-21.ru/Archive/2004/Stupin.htm .

38

yourich

27 февраля 2008, 20:43

#1

yourich:
Как то видел в этом разделе топик по системам автореферирования , сейчас его нет, а тема актуальна - поделитесь пожалуйста ссылками .

Вот например http://www.dialog-21.ru/Archive/2004/Stupin.htm .

PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.

W

40

walker

28 февраля 2008, 11:24

#2

yourich:
PS: уточню - интересует получение автореферата из большого документа. в частном случае - снипет, а в более широком смысле - получение краткой смысловой выжимки документа.

получение сниппетов и "смысловое" автореферирование больших документов - фактически совершенно разные задачи

насчет автореферирования смотрите SUMMAC TIPSTER (http://www-nlpir.nist.gov/related_projects/tipster_summac/) и DUC (http://duc.nist.gov/)

есть задача - контекстно-зависимое реферирование, то есть выжимка по заданной теме

формально - сниппет в SERP - тоже "контестно-зависимая аннотация", но главные задачи при формировании сниппета другая - наличие соответствия запросу и быстрота формирования

проще всего достигается нахождением первого максимального пересечения запроса и текста (обычно заранее разбитого на фиксированные - часто одинаковые - куски)

38

yourich

28 февраля 2008, 12:39

#3

walker:

формально - сниппет в SERP - тоже "контестно-зависимая аннотация", но главные задачи при формировании сниппета другая - наличие соответствия запросу и быстрота формирования

проще всего достигается нахождением первого максимального пересечения запроса и текста (обычно заранее разбитого на фиксированные - часто одинаковые - куски)

Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла, а не снипет.

В принципе, прогнав текст через TF*IDF - я получу нарезку наиболее важных слов/словосочетаний документа. Это будет быстро и качественно (применимо к условиям моей задачи). Т.е. мне нужно на входе - текст, на выходе - выжимка.

В соседнем топике нашел список опенсорс движков http://www.searchtools.com/tools/tools-opensource.html - может кто-то разбирался с ними и скажет - можно ли их использовать для решения этой задачи ? Или может быть есть готовый инструмент для этого, т.к. хотя вроде всё просто, но не хочется "изобретать велосипед" .

W

40

walker

28 февраля 2008, 15:53

#4

yourich:
Согласен, я достаточно условно свел эти два понятия в одну группу. Для меня важнее именно выделение смысла... .

надо все-таки почитать отчет по SUMMAC - техник много (значит нет одного решения), одни лучше, другие хуже

главное для Вас, что разрыв невелик - то есть для простых потребностей подойдет и простейшая схема, иначе - сферхфразовое единство, связность, лексические цепочки и так далее

M

65

Maxime

1 марта 2008, 13:41

#5

yourich:

В соседнем топике нашел список опенсорс движков http://www.searchtools.com/tools/tools-opensource.html - может кто-то разбирался с ними и скажет - можно ли их использовать для решения этой задачи ? Или может быть есть готовый инструмент для этого, т.к. хотя вроде всё просто, но не хочется "изобретать велосипед" .

В DataparkSearch есть Алгоритм Построения Рефератов (SEA, Summary Extraction Algorithm): http://www.dataparksearch.org/dpsearch-rel.ru.html#sea

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)

[Удален]

9 апреля 2008, 05:01

#6

Есть простенький алгоритм создания автореферата в версии 2.1

сайтового движка Румба

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Автореферирование документа - снипеты и проч.