Жень, могу поделиться секретными сведениями по Гуглу и Яху, если хорошенько напоите текилой. :)
Да, только это реальность, а не фантастика, как и извлечение знаний из обычного HTML. ;)
Вообще говоря, это не совсем так. Используется операция сегментации, при которой части текста аннотируются и из него извлекаются наиболее важные предложения. При наличии обширной базы об исследуемом предмете из этих сегментов можно собрать вполне приличный и логически связанный дайджест, причем с учетом ретроспективы, плюс посчитать тезаурус - семантическое ядро предметной области.
Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.
Не совсем понятны цели этого поста. Нужно предоставить инвестору требования к этому проекту для дальнейшего согласования или что вы хотите обсудить?
Ясно, что задача трудоемкая и не по зубам современным искалкам, но в перспективе решаема. В качестве метрики нужно брать, конечно, не просто ранки термов, как в классической Information Retrieval, а что-нибудь более точное вроде лексических цепочек.
Вообще говоря, в этом топике описан алгоритм сворачивания и сжатия данных, в терминах прикладного анализа данных (ПАД). Насколько я помню теорию, здесь можно использовать гипотезу компактности, которая выражается в том, что точки, отображающие признаки в объекте одного класса, должны быть расположены в пространстве признаков ближе друг к другу, чем к точкам, отображающим признаки объектов других классов.
Получить пространство признаков (знаний) вполне реально, если подобрать правильную метрику, то есть определить, какие признаки объекта (ключевые слова в документе) являются смысловыми.
P.S. Вообще интересный топик получился, респект.
Понятно, что любой алгоритм можно пробить. Но вот для мусорных дорвеев PhraseRank вполне подойдет.
Похоже, что Google хочет научиться определять характеристики текста для эталонных документов разных тематик, и использовать эти данные для отсеивания прооптимизированных (неестественных) текстов.
Учитывая их ресурсы, собрать тезаурус любой области знаний не так уж и трудно. В принципе, алгоритм автоматической оценки текстов выглядит очень реально, о чем я и написал в этой заметке на Хабрахабре.
Во вторичный индекс, который обозначается как Supplemental Results, сейчас попадают в основном либо дубликаты страниц (то есть происходит их склейка), либо страницы, PR которых не достаточен для размещения в основном индексе.
По крайней мере, так говорят Мэтт Катс и Адам Ласник.