Тему топика желательно было бы сформулировать "Побробуйте метапоисковик"
Попробовал. Метапоиск и есть метапоиск в классическом виде. Не лучше ни хуже. Понравилось что бысто работает. Не понравилось то, что нет изюминки. Результаты поиска ничем не отличаются от других поисковиков по ключевым словам. Ну хоть чтото свое должно быть! Повторять известное - неблагодарное дело. Попробуте, например реализовать вопросно ответный или семантический поиск, как например www.asknet.ru
Топологии поисковых систем используются самые различные. Наиболее стандартная топология представляет собой на входе сервер диспетчеризации запросов пользователей (как правило маршрутизатор), далее идут поисковые кластеры, которые сидят на Ethernet. Так, например, устроены поисковики AskNet (сайтовая версия - http://asknet.ru/IS/downloads/HelpSiteAdmin.mht)
Яндекс и др. Однако имеются и экзотические решения на специализированных процессорах (Fast), распределенные системы (Google - http://www.i2r.ru/static/334/out_22655.shtml).
Все достаточно стандартно с точки зрения архитектуры построения систем массового обслуживания и использования существующего железа.
В интернете предостаточно не только описаний, но и исходных кодов. В том числе и для поисковиков. Некоторые технологии изложены, например, здесь - http://asknet.ru/IS/technology.htm
Про всякие кластеризующие МЕТАпоисковые системы довольно подробно сказано на странице http://asknet.ru/IS/Technology/Avisimo.htm Изложенное про Visimo в полной мере относится и к Нигме.
В частности:
Nigma – это метапоисковая система, использующая другие поисковые системы для предварительного отбора текстовой информации и последующей классификации результатов поиска. Алгоритмы работы метапоисковой системы Nigma основаны на использовании стандартной модели работы с ключевыми словами и на кластеризации результатов поиска. Метапоисковая система не использует ни синтаксического, ни семантического анализа текстов. Поиск проводится по всем словам запроса пользователя. Реализованный кластерный анализ не позволяет получать точные результаты поиска при вводе запроса пользователя на естественном языке. Например, по запросу «what country did Nabokov live in» метапоисковая система Nigma не находит релевантной информации. Сравните, например, с выдачей семантической вопросно-ответной системы AskNet (http://search.asknet.ru/index_ngs.aspx?ngs_q=what%20country%20did%20Nabokov%20live%20in&ngs_tab=0). Это обусловлено отсутствием синтаксического и семантического анализа, позволяющего выделить главную сущность в запросе пользователя и определить требования к смысловому содержанию текста ответа. Метапоисковая система Nigma - это только метапоиск. Не существует собственных программных продуктов от авторов Нигмы для индексации информации и поиска по ней. Это обусловливает технологическую зависимость от существующих поисковых систем.
Выводы:
1. Метапоисковая система Nigma принадлежит к классу метапоисковых систем, осуществляющих кластеризацию результатов поиска существующих поисковых систем.
2. Система Nigma за счет использования кластерного анализа имеет характеристики поиска, отличающиеся от традиционных поисковых систем (возможность выделения слов, часто встречающихся совместно со словами поискового запроса). Однако использование только кластерного анализа не дает существенных преимуществ метапоисковым системам данного типа (clusty, nigma и др.).
3. Улучшение качества поиска, особенно при обработке запросов на естественном языке возможно только на основе использования синтаксического и семантического анализа текстовой информации.
4. Технология кластерного анализа имеет особенности, позволяющие на некоторых запросах пользователей получить немного лучшее качество поиска по сравнению с традиционными поисковыми системами. Однако, на других запросах качество поиска у систем кластерного анализа хуже, чем у традиционных поисковых систем. Это просто системы одного уровня, но несколько отличающиеся в части представления информации пользователю.
5. Качественное повышение эффективности поисковых систем возможно только за счет использования синтаксического и семантического анализа текста, а существующие поисковые системы (как традиционные, так и кластерные) этого не реализуют.
Поищите в интернете с помощью самих же поисковых систем как они работают. Задайте вопрос "как работают поисковые системы". Вопросно-ответные поисковики должны ответить. Можете посмотреть технологии и алгоритмы здесь - http://www.asknet.ru/technology.htm ☝
Да уж, интересно, а кто нибудь из уважаемых писателей форума читал упоминаемый в топике закон об авторском праве? Тогда позвольте Вас спросить какую статью из упоминаемого закона об авторском праве нарушают поисковики ??? ("Да, поисковики нарушают закон об авторском праве." - Слава Шевцов). В том то все и дело, что законодательной базы, регулирующей права на интернет-контент в настоящее время в России нет. Поэтому все предположения о том кто что нарушает строятся только на принципах здравого смысла и практике применения статей вышеупомянутого закона к области действия, не упомянутой в данном законе. Тема действительно важная, это признают и в Гос. Думе, однако с их просмотрев уровень проработки проекта нового закона об авторском праве можно составить полное мнение об "компетенции" наших "думцев" в данном вопросе. 🙄
ОАО "Интелл Сервис" (разработчик поисковой системы AskNet) расположено по адресу
123242 Россия, г. Москва, ул. Конюшковская, д. 30, стр.3, тел.+7 (495) 253-46-89, секретарь +7 (495) 221-82-77, факс +7 (495) 221-82-76, e-mail: info@asknet.ru - общие вопросы, support@asknet.ru - техническая поддержка
На карте см. здесь -
http://maps.google.com/maps/ms?ie=UTF8&hl=ru&msa=0&msid=114487204238899802429.0004363ba650c1b27cf76&ll=55.759547,37.578768&spn=0.004292,0.014269&t=h&z=17&om=1
Компания открыта для контактов. Приезжайте, расскажем, покажем, ответим на вопросы и т.д.
Все поисковики Google, Яндекс и др. прозевали семантический поиск. Да, они приучили юзеров набирать запросы телеграфным стилем и при этом заявляют, что "пользователи мыслят словами". Ну уж нет, не знаю, может быть авторы этого заявления и мыслят словами, но я мыслю семантическими категориями и отношениями между ними. Поэтом поисковики должны работать соответственно. Тогда можно будет сказать, что поисковик понял меня с полуслова, и дал ответ на мой вопрос. Для поиска ответа не нужна история запросов пользователя. Представьте себе ситуацию, когда учитель спрашивает ученика о том когда состоялась куликовская битва, а тот вспоминает историю предыдущих запросов. Это тоже байка навязанная поисковиками. Что бы ни делать (морфология, история запросов, персонализация и т.п.), только бы не связываться с синтаксисом и семантикой. Почему? Потому, что это сложно, этого нет в существующих поисковиках. Это дорогостояще с точки зрения разработки и с точки зрения эксплуатации. На порядки возростают затраты. А зачем? Пиплз и так все схавают. И несоответствующие результаты поиска (мол, используйте язык расширенных запросов - читайте, мол сами дураки) и несоответствующую контекстную рекламу (читайте используйте автофокус от Янгдекса и т.п.).;)
Извлечение фактов из текта ... Что такое факты - философское понятие. Для кого-то вспышка сверхновой это факт, а для кого-то обыденность, которой не следует уделять внимание. Выделение семантических фактов - это процесс отождествления значимых фактов с Вашими семантиескими категориями. При отождествлении может использоваться синтаксическая и семантическая флуктуация. Вы хотите почитать об этом? Посмотрите на любые системы, работающие над морфологией. Читайте о синтаксисе и семантике на сайтах RCO, AskNet и т.п.:) Учтите только то, что выявление фактов может осуществляться либо на основе заранее проведенной настройки системы на совокупность фактов, семантических категорий и т.п., либо на основе "вручную" указываемых системе фактов в процессе обработки текстов. Предпочтение - первой, автоматически проводимой процедуре.