Andrey Ogarok

Andrey Ogarok
Рейтинг
49
Регистрация
10.07.2007
Должность
CIO
Интересы
Search engines, software, hardware
PhD

Например, SDK от asknet.ru

Довольно большой перечень молулей анализа неструктурированной текстовой информации приведен здесь: http://asknet.ru/is/Analytics/programms.htm☝

Andrey Ogarok добавил 24.09.2008 в 16:03

SDK от asknet.ru

Более полный список см. - http://asknet.ru/is/Analytics/programms.htm

Проект безусловно интересный. Однако, существуют и другие русско- и англоязычные вопросно-ответные поисковые системы. Например, поисковик www.asnet.ru "понимает" вопросы на русском и английском языках и ищет на них в автоматическом режиме ответы по всему интернету с использованием предварительно получаемых текстов от других поисковиков (метапоиск). Ответы поисковик asknet.ru выдает примерно за 3 секунды. При этом он успевает провести полный лингвистический анализ (графематика, морфология, синаксис, семантика) текстов вопроса пользователя и получаемых сниппетов ответов от других поисковиков. Алгоритмы подстчета релевантности основаны не на статистических, а на семантических критериях. Более подробно технология вопросно-ответного поиска, используемая в asknet.ru, изложена здесь: http://asknet.ru/is/technology.htm Поэтому принципиально возможно реализовать поиск смысловых ответов на вопросы пользователя в Интернете не за минуту, а за секунду. Существующие версии вопросно-ответной поисковой системы asknet и для локального поиска (персональная, корпоративная). Поисковик asknet.ru в интернете появился в декабре 2007 г. Ранее (с 2002г.) он был известен как поисковая система stocona.

Что касается темы вопросно-ответного поиска, то почитайте материалы международных конференций по этому вопросу: http://romip.narod.ru/ru/2006/tracks/qa.html и http://trec.nist.gov/data/qamain.html

Результаты сравнительного анализа asknet.ru с системой dialogus приведены здесь: http://asknet.ru/is/Analytics/dialogus.htm

Результаты сравнительного анализа asknet.ru с Google приведены здесь: http://asknet.ru/is/BPlan/COMP-Google-ISSmetasearch.mht

Что касается START от MIT, то вопросно-ответные системы подобные этой, как и другие (ask.com - ранее известная как askjeeves.com), основанные на ручной модерации ответов обладают крайне низкой полнотой поиска. Напимер, спросите у них что-либо не включенное в базу ответов(например, When was Beethoven died) и ответа не будет. Сравните с результатом поиска в asknet.ru на этот вопрос - ...Ludwig van Beethoven died on March 26, 1827, after four months of misery on a ... ... (http://search.asknet.ru/index_ngs.aspx?ngs_q=When%20was%20Beethoven%20died).

Создание семантической поисковой системы весьма сложная и ресурсоемкая задача. Нужно около 20 млн у.е. для полноценной реализации проекта. Однако возможна потапная реализция проекта. Именно это и предусматривается бизес-планом ОАО "Интелл Сервис", создавшей asknet.ru http://asknet.ru/is/BPlan/BPlan_IS.mht

Просто замечательно, что идеи реализации вопросно-ответного поиска получают все большую поддержку в Интернет-сообществе. ОАО "Интелл Сервис" открыто для контактов,заинтересовано в реализации семантического поиска в общем и вопросно-ответного поиска в частности.

Оптимизировать сайт по словам в различных падежах конечно надо. Различные поисковые систему по разному учитывают лексемы и морфоформы при назначении коэффициента релевантности. Например, для Яндекса оптимизировать сайт по словам в различных падежах имеет смысл только в том случае, если эти слова не включены с состав морфологического словаря поисковой системы. Для слов, которые включены в морфологический словарь имеются лексемы, поэтому эти слова для поисковика обычно одинаковы с точки зрения оценки релевантности. Если слова не включены в базовый морфологический словарь поисковой системы, то работают алгоритмы бессловарной морфологии, позволяющие находить эти "неизвестные" поисковику слова в различных вариантах написания, однако для алгоритмов назначения релевантности в данном случае уже становятся важными различные индексы вариантов написания "неизвестных" слов. Сравните для Яндекса результаты поиска по известному слову "машина" и "неизвестному" слову "КАМАЗ" в различных вариантах их написания. Для Гугла морфоформа имеет гораздо большее значение, т.е. оптимизация по по словам в различных падежах для него еще более важная. Для asknet.ru словоформы также важны, так как определяют синтаксис и семантику фраз ☝

Слава Шевцов:
Я спросил у ясеня (зачёркнуто) у www.asknet.ru "Где находится нофелет?" Ясень мне ответил:

"Внутренняя ошибка сервера. Смотрите логи сервера. ".

Я спросил у тополя, "Где находится кремль?". Тополь согласился с ясенем :(

Согласен. Был регламент на сервере. Сейчас www.asknet.ru на вопрос "Где находится кремль" отвечает:

Кремль находится в Москве

древний Кремль находится на острове

Древнее ядро Рязани– Кремль, находится на северной границе города, на высоком мысу

Казанский кремль находится на расстоянии 2 километров от реки

"Кремль в Измайлово" находится в одном из старейших районов Москвы– Измайлово, на берегу Серебрянно-Виноградного пруда. На территории Кремля в Измайлово находятся производственно-художественные мастерские:...

Любой кремль находится на вершине

На данном этапе развития проекта asknet.ru важна не устойчивость работы поисковика, а его функциональность. Если поисковая система может подсвечивать слова смыслового ответа, и это проявляется с определенной логикой, а не случайно, то значит за этой функциональностью стоят соответствующие алгоритмы.

Так что делать свою базу индекса нужно том случае, если поисковый сервис будет интересным, оригинальным. Написать программы ведения индекса не так уж сложно. Приобрести промышленные компьютеры, стойки и др. инфраструктуру поисковика дороговато, но реально. Вопрос в другом - обеспечите ли вы разумные сроки выхода проекта на самоокупаемость?

Зачем нужен еще один поисковик со СТАНДАРТНОЙ функциональностью (поиск по ключевым словам и только)? Разве плохи существующие поисковики? Лучше создайте что либо новое, интересное. Например, реализуйте систему автоматического поиска ответов ответов на вопросы пользователя, как, например, это реализовано в вопросно-ответном поисковике www.asknet.ru Или реализуйте поиск с учетом семантики запроса пользователи и т.п.:)

У Игоря Ашманова несколько интересных проектов и идей (см. http://asknet.ru/IS/Analytics/znanya.htm ). Что касается проекта http://flexum.ru/ , то прежде всего интересна идея применения социальных сервисов (создаваемых пользователями) к поисковым системам, а также возможность владельцам сайтов реализовать поиск по имеющимся у них сайтам и интересным для них ресурсам. Однако, всеже более переспективными и интересными направлениями всеже являются разработка корпоративных версий поисковых систем и семантических поисковых систем.

Ну не все сразу, господа. Goggle тоже поначалу был забавой. Проект Ашманова довольно интересный, однако, мне кажется, он был бы еще более интересным (особенно в коммерческом плане :), если бы Игорь занялся не тематическими поисковиками, а корпоративными версиями. Здесь рынок еще весьма далек от насыщения, в отличие от глобальных поисковиков (см. http://asknet.ru/IS/Analytics/cnews.htm ).

Существующие антивирусы обладают слабыми эвристическими анализаторами. Отсюда и "сюрпризы" наподобие вышеописанных. В этом легко убедиться на следующем элементарном примере. Добавим в абстрактный текстовый файл (например, alarm.txt) следующий код (в синтаксисе VBA):

Private Sub aaa()

.addresslists.count.addressentries.count"mapi"For For.createitem.recipients.add.body

.attachments.add.send

End Sub

И проверим этот файл известными антивирусами (Dr.Web, Kaspersky, F-Secure и др.).

Результат:

Ложная тревога от всех известных антивирусов.

Данный текстовый файл антивирусы считают возможно инфицированным.

Однако файл alarm.txt абсолютно безвреден по причине того, что данный файл не может быть интерпретирован приложением Microsoft Office, как документ, содержащий макросы, впрочем как и само тело макроса не работоспособно.

Для проведения глубокого эвристического анализа самим антивирусом требуется использование механизмов синтаксического и семантического анализа текста макросов, скриптов и т.п. Только так можно обеспечить оптимизацию показателей по "ложным тревогам" и "пропуску опасности". В семантическом поисковике AskNet.ru используется синтаксический и семантический анализ текстовой информации. На аналогичных принципах разработчики этого поисковика продолжили работы над проектом эвристического антивируса.

Ну и что в использовании морфологии английского языка нового? Это давно используется во многих других поисковиках. И, кстати, не только морфология. Например, QA семантическая поисковая система AskNet.ru использует морфологию, синтаксис и семантику для русского и английского языков (http://asknet.ru/IS/Technology/techdescr.htm). Использование одной только морфологии не дает существенного преимущества, особенно при поиске на анлийском языке. Повышается полнота поиска, а точность падает. Именно поэтому Google не использует английскую морфологию, хотя, английский язык Гуглу более родной, чем русский. Is not it? ;)

Quintura получает гранты на Западе (у одного известного фонда) и значительную часть средств из них тратит на PR. Это обеспечивает получение новых грантов. Лучше было бы эти средства потратить на разработку поисковой системы. А то как то несерьезно получается. Индексации собственной нет, из особенностей - только визуальная группировка (якобы кластеризация) результатов поиска по Яндексу и др. На странице http://asknet.ru/IS/Analytics/programms.htm приведен анализ многих технологий работы поисковых систем. Что касается Quintur-ы, то там сказано: " Поиск проводится по нескольким поисковым системам. Результаты кластеризуются в основном по статистическим критериям. Для построения визуального кластера слов Quintura использует морфологический анализ. Синтаксический и семантический анализ не реализован. (Например, по запросу «моющий» Quintura включает в кластер слова «прекрасная няня», отождествляя омонимичные слова «моя» и слово запроса «моющий»." ☝

Всего: 61