Andrey Ogarok

Andrey Ogarok
Рейтинг
49
Регистрация
10.07.2007
Должность
CIO
Интересы
Search engines, software, hardware
PhD
eN_Slon:
Вам это не присуще...

Модератор форума пусть рассудит кому что присуще.

eN_Slon:
... Курите правила форума.

Спасибо, не курю :)

Колдунщик Яндекса не отвечает на вопросы, а ищет по специализированным базам при определенном формате ввода запроса. Например, если в запросе только два города, то он выдает расписание трансорта и т.п. Ответы Яндекса (ask.yandex.ru) это социальный сервис, в котором ответы на вопросы дают ПОЛЬЗОВАТЕЛИ. А вот asknet.ru дает автоматические ответы, то есть все ответы формирует компьютер, а не человек. Дизайн напоминает несколько дизайн сайта microsoft.com ;) Надо будет сменить дизайн на одном из них.🍻

Wolfram Alpha не является поисковой системой. Это обусловлено тем, что она не предназначена для автоматической обработки неструктурированных текстов. Для ее работы необходимо предварительно вручную ввести фактографическую информацию в базу данных, а также разработать и реализовать алгоритмы ее обработки. Данные процедуры выполняются вручную сообществом разработчиков и экспертов системы Wolfram Alpha.

Из анализа описания системы система Wolfram Alpha следует, что получения ответов система Wolfram Alpha должна:

- уметь правильно разобрать запрос пользователя на естественном языке;

- иметь соответствующую структурированную фактографическую информацию;

- иметь алгоритмы обработки фактографической информации, обеспечивающие формирование ответа на запрос пользователя.

Таким образом, система Wolfram Alpha автоматически способна обрабатывать только заранее структурированную вручную фактографическую информацию, хранящуюся в СУДБ. Для синтеза ответов могут использоваться детерминированные алгоритмы выборки дополнительной информации и проведения расчетов по фактографическим данным. По данным формальным признакам система Wolfram Alpha может быть отнесена к известному классу систем Business Intelligence. Системы данного класса являются узко специализированными, что обусловливает незначительный спектр вопросов, на которые можно получить ответы системы Wolfram Alpha. Данное ограничение является системным, так как заложено в концепцию ее функционирования.

Таким образом, система Wolfram Alpha принципиально не позволяет пользователям искать ответы на любые интересующие их вопросы. Для этого предназначены вопросно-ответные поисковые системы. В отличие от системы Wolfram Alpha вопросно-ответные поисковые системы автоматически выявляют фактографическую информацию в обрабатываемых текстах и проводят ее индексацию без участия человека. За счет этого достигается существенное повышение полноты поиска. Для обобщения, проведения логического вывода и синтеза ответов вопросно-ответные поисковые системы также используют правила обработки фактографической информации. Однако, в отличие от системы Wolfram Alpha, правила логической обработки при этом представляют из себя не отдельные алгоритмы, направленные на решение заранее определенных сравнительно простых задач, а логические правила, которые могут автоматически применяться в динамически формируемой последовательности, определяющей порядок обработки первичной фактографической информации и формирования ответа на вопрос пользователя. Для проверки данных положений проведем сравнительное тестирование систем Wolfram Alpha и AskNet.ru. Методика сравнительного тестирования систем Wolfram Alpha и AskNet.ru Для проведения объективного тестирования системы Wolfram Alpha была взята коллекция вопросов дорожки вопросно-ответного поиска конференции TREC 2003 (http://trec.nist.gov/data/qa/2003_qa...st.set.t12.txt). Это обусловлено тем, что данные тестовые вопросы имеют достаточно общий характер и могут быть использованы для тестирования систем вопросно-ответного поиска, работающих в интернете. В отличие от других тестовых дорожек вопросно-ответного поиска конференции TREC, используемые тестовые случаи конференции TREC 2003 не привязаны к тестовым коллекциям документов и не имеют группировки в тематически связанные последовательности вопросов. Тестовые коллекции семинара РОМИП не использовались ввиду того, что они предназначены для оценки качества поиска на русском языке, а система Wolfram Alpha не работает с русскоязычными запросами пользователей – «Wolfram Alpha сейчас не понимает русский язык». Тестирование проводилось путем последовательного поочередного ввода запросов из тестовой коллекции конференции TREC 2003. Тестирование систем было проведено по первым 71 тестовым случаям из 500, имеющихся в коллекции конференции TREC 2003. Это было обусловлено получением результатов тестирования, явно отражающих характеристики систем и позволяющих сформулировать достоверные выводы.

Результаты сравнительного тестирования систем Wolfram Alpha и AskNet.ru

При анализе выдачи вопросно-ответной поисковой системы AskNet.ru проводился учет наличия и номера позиции правильного ответа. Среднее значение позиции правильного ответа на странице, если ответ был найден, составляет 1,63. Это означает, что в среднем правильный ответ находился в выдаче вопросно-ответной поисковой системы AskNet.ru на первом или на втором месте.

Система Wolfram Alpha в 57 случаях не могла определить смысл запроса пользователя и выдавала сообщение «Wolfram Alpha isn't sure what to do with your input». В трех тестовых случаях система Wolfram Alpha вывела диалог уточнения смыслового содержания введенного пользователем запроса.

Выводы.

Результаты сравнительного тестирования систем Wolfram Alpha и AskNet.ru (http://info.asknet.ru/Analytics/wolfram%20alpha.htm

) подтвердили правильность выше изложенных теоретических оценок.

Система Wolfram Alpha не является «универсальным вычислителем ответов», как это было заявлено в ходе ее рекламной компании в Интернете. Практическая полезность системы Wolfram Alpha для получения смысловой информации на произвольные вопросы крайне низка. На это указывает низкая вероятность получения правильного ответа в ее выдаче. Действительно, для получения правильного ответа в системе Wolfram Alpha должно выполниться много условий: система должна корректно разобрать вопрос пользователя и корректно составить шаблон семантического поиска, в системе должна быть соответствующая фактографическая информация и алгоритмы ее обработки. Фактографическая информация и алгоритмы ее обработки в системе Wolfram Alpha вводятся вручную, поэтому данная система может быть использована для поиска и обработки информации ограниченного объема. Подключение расчетных задач для обработки результатов предварительно отбираемой системой структурированной информации при формировании ответа пользователю характерно для систем класса Business Intelligence. Однако, как известно, системы данного класса имеют четко выраженную узкую прикладную направленность.

Таким образом, при существующей концепции функционирования, система Wolfram Alpha ориентирована на сравнительно узкие прикладные области применения, определяемые вручную вводимыми фактографическими данными и алгоритмами их обработки.

В отличие от данного подхода, вопросно-ответные и семантические поисковые системы ориентированы на автоматическое выявление структурированной текстовой информации и ее обработку? что обусловливает их существенно более широкую прикладную направленность.🍻

Wolfram Alpha – это система, предназначенная для хранения, обработки и выдачи пользователям структурированных данных по запросам на естественном английском языке. Wolfram Alpha не является поисковой системой. Это обусловлено тем, что она не предназначена для автоматической обработки неструктурированных текстов. Для ее работы необходимо предварительно вручную ввести фактографическую информацию в базу данных, а также разработать и реализовать алгоритмы ее обработки. Данные процедуры выполняются вручную сообществом разработчиков и экспертов системы Wolfram Alpha.

Из анализа описания системы система Wolfram Alpha следует, что получения ответов система Wolfram Alpha должна:

- уметь правильно разобрать запрос пользователя на естественном языке;

- иметь соответствующую структурированную фактографическую информацию;

- иметь алгоритмы обработки фактографической информации, обеспечивающие формирование ответа на запрос пользователя.

Таким образом, система Wolfram Alpha автоматически способна обрабатывать только заранее структурированную вручную фактографическую информацию, хранящуюся в СУДБ. Для синтеза ответов могут использоваться детерминированные алгоритмы выборки дополнительной информации и проведения расчетов по фактографическим данным. По данным формальным признакам система Wolfram Alpha может быть отнесена к известному классу систем Business Intelligence. Системы данного класса являются узко специализированными, что обусловливает незначительный спектр вопросов, на которые можно получить ответы системы Wolfram Alpha. Данное ограничение является системным, так как заложено в концепцию ее функционирования.

Таким образом, система Wolfram Alpha принципиально не позволяет пользователям искать ответы на любые интересующие их вопросы. Для этого предназначены вопросно-ответные поисковые системы. В отличие от системы Wolfram Alpha вопросно-ответные поисковые системы автоматически выявляют фактографическую информацию в обрабатываемых текстах и проводят ее индексацию без участия человека. За счет этого достигается существенное повышение полноты поиска. Для обобщения, проведения логического вывода и синтеза ответов вопросно-ответные поисковые системы также используют правила обработки фактографической информации. Однако, в отличие от системы Wolfram Alpha, правила логической обработки при этом представляют из себя не отдельные алгоритмы, направленные на решение заранее определенных сравнительно простых задач, а логические правила, которые могут автоматически применяться в динамически формируемой последовательности, определяющей порядок обработки первичной фактографической информации и формирования ответа на вопрос пользователя. Для проверки данных положений проведем сравнительное тестирование систем Wolfram Alpha и AskNet.ru. Методика сравнительного тестирования систем Wolfram Alpha и AskNet.ru Для проведения объективного тестирования системы Wolfram Alpha была взята коллекция вопросов дорожки вопросно-ответного поиска конференции TREC 2003 (http://trec.nist.gov/data/qa/2003_qadata/03QA.tasks/test.set.t12.txt). Это обусловлено тем, что данные тестовые вопросы имеют достаточно общий характер и могут быть использованы для тестирования систем вопросно-ответного поиска, работающих в интернете. В отличие от других тестовых дорожек вопросно-ответного поиска конференции TREC, используемые тестовые случаи конференции TREC 2003 не привязаны к тестовым коллекциям документов и не имеют группировки в тематически связанные последовательности вопросов. Тестовые коллекции семинара РОМИП не использовались ввиду того, что они предназначены для оценки качества поиска на русском языке, а система Wolfram Alpha не работает с русскоязычными запросами пользователей – «Wolfram Alpha сейчас не понимает русский язык». Тестирование проводилось путем последовательного поочередного ввода запросов из тестовой коллекции конференции TREC 2003. Тестирование систем было проведено по первым 71 тестовым случаям из 500, имеющихся в коллекции конференции TREC 2003. Это было обусловлено получением результатов тестирования, явно отражающих характеристики систем и позволяющих сформулировать достоверные выводы.

Результаты сравнительного тестирования систем Wolfram Alpha и AskNet.ru

При анализе выдачи вопросно-ответной поисковой системы AskNet.ru проводился учет наличия и номера позиции правильного ответа. Среднее значение позиции правильного ответа на странице, если ответ был найден, составляет 1,63. Это означает, что в среднем правильный ответ находился в выдаче вопросно-ответной поисковой системы AskNet.ru на первом или на втором месте.

Система Wolfram Alpha в 57 случаях не могла определить смысл запроса пользователя и выдавала сообщение «Wolfram Alpha isn't sure what to do with your input». В трех тестовых случаях система Wolfram Alpha вывела диалог уточнения смыслового содержания введенного пользователем запроса.

Выводы.

Результаты сравнительного тестирования систем Wolfram Alpha и AskNet.ru (http://info.asknet.ru/Analytics/wolfram%20alpha.htm

) подтвердили правильность выше изложенных теоретических оценок.

Система Wolfram Alpha не является «универсальным вычислителем ответов», как это было заявлено в ходе ее рекламной компании в Интернете. Практическая полезность системы Wolfram Alpha для получения смысловой информации на произвольные вопросы крайне низка. На это указывает низкая вероятность получения правильного ответа в ее выдаче. Действительно, для получения правильного ответа в системе Wolfram Alpha должно выполниться много условий: система должна корректно разобрать вопрос пользователя и корректно составить шаблон семантического поиска, в системе должна быть соответствующая фактографическая информация и алгоритмы ее обработки. Фактографическая информация и алгоритмы ее обработки в системе Wolfram Alpha вводятся вручную, поэтому данная система может быть использована для поиска и обработки информации ограниченного объема. Подключение расчетных задач для обработки результатов предварительно отбираемой системой структурированной информации при формировании ответа пользователю характерно для систем класса Business Intelligence. Однако, как известно, системы данного класса имеют четко выраженную узкую прикладную направленность.

Таким образом, при существующей концепции функционирования, система Wolfram Alpha ориентирована на сравнительно узкие прикладные области применения, определяемые вручную вводимыми фактографическими данными и алгоритмами их обработки.

В отличие от данного подхода, вопросно-ответные и семантические поисковые системы ориентированы на автоматическое выявление структурированной текстовой информации и ее обработку. Это обусловливает их существенно более широкую прикладную направленность.

DeveloperRu:
" Программы и SDK распространяются на коммерческой основе. "
...
например, как приложить семантику к индексатору, чтобы выявлять бессмысленный набор текстов и тп

1. Существует множество проектов создания поисковых систем с открытым исходным кодом (open source), в том числе lucene. Они распространяются НЕ не коммерческой основе.

2. Прикладывать семантику надо совместно с синтаксическим анализом, тогда эффект будет на порядок выше. Как это делать описано в алгоритмах работы лингвистических процессоров.

Не изобретайте велосипед. Используйте обратные списки. Ни одна СУБД для серьезных задач не подойдет. Посмотрите проект Lucene.

The Apache Lucene project develops open-source search software, including:

Lucene Java, our flagship sub-project, provides Java-based indexing and search technology, as well as spellchecking, hit highlighting and advanced analysis/tokenization capabilities.

Droids is an intelligent robot crawling framework currently in incubation.

Lucene.Net is a source code, class-per-class, API-per-API and algorithmatic port of the Lucene Java search engine to the C# and .NET platform utilizing Microsoft .NET Framework. Lucene.Net is currently under incubation.

Lucy is a loose C port of Lucene Java, with Perl and Ruby bindings.

Mahout is a subproject with the goal of creating a suite of scalable machine learning libraries.

Nutch builds on Lucene Java to provide web search application software.

PyLucene is a Python port of the the Lucene Java project.

Solr is a high performance search server built using Lucene Java, with XML/HTTP and JSON/Python/Ruby APIs, hit highlighting, faceted search, caching, replication, and a web admin interface.

Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.

При необходимости детализации информации пишите в личку.

Если брать готовую, то посмотрите здесь перечень поисковых систем, программных модулей и технологий: http://info.asknet.ru/Analytics/programms.htm. Если интересует разработка и теория, то проектов с открытым исходным кодом поисковых систем довольно много. Например, посмотрите проект lucene.apache.org -

What Is Lucene?

The Apache Lucene project develops open-source search software, including:

Lucene Java, our flagship sub-project, provides Java-based indexing and search technology, as well as spellchecking, hit highlighting and advanced analysis/tokenization capabilities.

Droids is an intelligent robot crawling framework currently in incubation.

Lucene.Net is a source code, class-per-class, API-per-API and algorithmatic port of the Lucene Java search engine to the C# and .NET platform utilizing Microsoft .NET Framework. Lucene.Net is currently under incubation.

Lucy is a loose C port of Lucene Java, with Perl and Ruby bindings.

Mahout is a subproject with the goal of creating a suite of scalable machine learning libraries.

Nutch builds on Lucene Java to provide web search application software.

PyLucene is a Python port of the the Lucene Java project.

Solr is a high performance search server built using Lucene Java, with XML/HTTP and JSON/Python/Ruby APIs, hit highlighting, faceted search, caching, replication, and a web admin interface.

Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.

Вы что забыли, что год назад Microsoft купил поисковики Powerset и Fast? За первый выложили 10 млн. USD, а за второй 1,2 млрд. USD. Может что и получится у Microsoft-а. Вобще обогнать сейчас Гугл можно только применив алгоритмы семантического анализа. Именно этим занимались в командах, создавших Powerset и Fast. Однако, это жалкая семантика, так как полного лингвистического разбора предложений в них нет. У нас есть :)

Смотря для каких целей. Если поиск по ключевым словам, то лучше сайтовые версии поисковиков, а не пользовательские интерпретации поискоых сервисов от Гугла, Яндекса, и т.п. Если поиск ответов на вопросы, то сайтовых версий у Диалогуса, Exctus-a и т.п. нет, а у нас есть 🍻 см. --- http://info.asknet.ru/SearchSite.htm

Всего: 61