Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Жень, могу поделиться секретными сведениями по Гуглу и Яху, если хорошенько напоите текилой. :)

я в более упрощенном виде описал

Да, только это реальность, а не фантастика, как и извлечение знаний из обычного HTML. ;)

Если такое сделать для Интернета, склеят за дубликат контент Программа работает по принципу того же translation memory алгоритма. Из массива текстов, разбитых на логические части, вытягиваются рандомом эти самые части, и соединяются воедино. Ничего сложного, но это те же тексты, только перемешанные.

Вообще говоря, это не совсем так. Используется операция сегментации, при которой части текста аннотируются и из него извлекаются наиболее важные предложения. При наличии обширной базы об исследуемом предмете из этих сегментов можно собрать вполне приличный и логически связанный дайджест, причем с учетом ретроспективы, плюс посчитать тезаурус - семантическое ядро предметной области.

Когда (если) она найдена, то в общем-то уменьшение размерности носит чисто технический характер и служит только лишь для экономии ресурсов (как верно отмечено, это похоже на сжатие с потерями), но без "ореола" исскуственного интелекта.

Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.

Не совсем понятны цели этого поста. Нужно предоставить инвестору требования к этому проекту для дальнейшего согласования или что вы хотите обсудить?

таким образом мы имеем что реально получить пространство человеческих знаний на основе анализа всех документов в WWW, так? На основе этого пространства можно считать релевантность, строить какие-то отображения в 3D/2D для броузинга, и делать кучу еще разных полезных вещей.

Ясно, что задача трудоемкая и не по зубам современным искалкам, но в перспективе решаема. В качестве метрики нужно брать, конечно, не просто ранки термов, как в классической Information Retrieval, а что-нибудь более точное вроде лексических цепочек.

Ведь тут помимо известной модели закономерностей еще надо знать как именно их оставить, уменьшая размерность. Т.е. врядли это верно для любого способа уменьшения размерности.

Вообще говоря, в этом топике описан алгоритм сворачивания и сжатия данных, в терминах прикладного анализа данных (ПАД). Насколько я помню теорию, здесь можно использовать гипотезу компактности, которая выражается в том, что точки, отображающие признаки в объекте одного класса, должны быть расположены в пространстве признаков ближе друг к другу, чем к точкам, отображающим признаки объектов других классов.

Получить пространство признаков (знаний) вполне реально, если подобрать правильную метрику, то есть определить, какие признаки объекта (ключевые слова в документе) являются смысловыми.

P.S. Вообще интересный топик получился, респект.

Я вам как дорвейщик со стажем скажу, что наша команда уже наверное год для генерации текстов использует только узко направленные словари.

Понятно, что любой алгоритм можно пробить. Но вот для мусорных дорвеев PhraseRank вполне подойдет.

Хммм... люди растолкуйте подробнее что значит гугл станет фильтровать не добросовестный контент, как это понимать. Это вы про дорвеи?

Похоже, что Google хочет научиться определять характеристики текста для эталонных документов разных тематик, и использовать эти данные для отсеивания прооптимизированных (неестественных) текстов.

Учитывая их ресурсы, собрать тезаурус любой области знаний не так уж и трудно. В принципе, алгоритм автоматической оценки текстов выглядит очень реально, о чем я и написал в этой заметке на Хабрахабре.

А причём тут склеенных?

Во вторичный индекс, который обозначается как Supplemental Results, сейчас попадают в основном либо дубликаты страниц (то есть происходит их склейка), либо страницы, PR которых не достаточен для размещения в основном индексе.

По крайней мере, так говорят Мэтт Катс и Адам Ласник.

Всего: 847