Уважаемый bvd!
Не буду писать "bvd, bvd...", потому что это - своего рода фамильярность. Ну да ладно, стиль общения каждый выбирает для себя сам.
...без комментариев...
"У нас" - это у кого? А "анализатор имени Аношкиной" - это что, теперь признанный стандарт качества и полноты? Не смешите меня :) А то так можно сказать, что snowball - это хороший стеммер, а словник ispell от А. Лебедева - это морфоанализатор :) Система Аношкиной есть, вообще говоря, хорошая, добросовестная научная работа, но уж никак не выверенный лингвистический материал!
В целом - соглашусь, однако в контексте обсуждения (нужен поиск для больших массивов документов) Вы категорически неправы. Я, несмотря на Ваше утверждение о том, что я "сделал только морфоанализатор", успел спроектировать, реализовать и запустить - приоткрою завесу - не только его :) Еще в моем послужном списке большие поисковики - Апорт и Рамблер, орфографический и грамматический корректор Пропись, да и ряд других продуктов и технологий, выходящих за рамки данной темы. Впрочем, об этом Вы можете почитать на моем сайте. Так вот, поверьте, в поисковых системах, работающих с большими объемами данных (а Вы, кстати, когда-нибудь индексировали хотя бы десяток-другой гигабайт?), мы не используем словари синонимов или словообразовательные словари вовсе не потому, что у нас их нету или мы не умеем этого делать :) Просто потому, что их использование откровенно вредит качеству поиска. Более того, мне до сих пор никто не показал ни реально работающей (не "из рук разработчика") поисковой системы, которая использовала бы "семантику", ни какой-либо другой полнотекстовой системы с семантическим компонентом, ни, кстати, системы машинного перевода. Но это уже другая опера. Впрочем, ставлю ящик пива тому, кто мне ее покажет.
Игорь - это Ашманов. Из Москвы.
С уважением, Андрей Коваленко.
Привет, Илья!
Есть и такое мнение :)
...но качество лингвистических данных... Как бы это сказать... Ну, несколько хромает :) Кроме того, насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов, и здесь это тоже сыграло роль.
...а этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить
Нет, Илья, в Экскалибуре - не моя. Это Игорь. Еще Информатиковских времен.
Андрей.
Вот это - правильный подход! Кроме шуток. Просто по той причине, что отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.
Попробую прокомментировать:
Стабильно работающий, добротный продукт. Работает не сильно быстро. Применяется в массе мест. Есть халявная версия. Лицензия для использования - достаточно дорогая.
С точки зрения качества поиска можно оценить их статику на www.turtle.ru, динамику - по ссылке с их сайта. Разработка Димы Крюкова, автора первой версии Рамблера, при участии Олега Бартунова и Жени Родичева. Лингвистика приобретена моя, однако, похоже, Родичев вмешивался туда, так что качество оной упало.
Поисковая машина, выросшая из проекта "ИПС Агама", она же - "ИПС МИРС", она же - далее - "ИПС Артефакт". Заточена под работу с модерируемыми объемами информации. Руководитель разработки и идеолог - Владимир Пархоменко, мой учитель. Высокое качество поиска по коллекциям документов. Недостаток - система слишком сильно заточена была при разработке на Win32.
"Плюха" для Oracle, весьма тяжелая и дорогая. Лингвистика - изначально - моя, однако в нее тоже лазили руками. Словник - на уровне 1994 года
Без комментариев. Не знаю.
Как и любая система от госструктур, наполнена блестящими научными идеями, и неплохо должна работать на объемах данных, составленных авторами системы. На реальных данных "блестящие идеи", как правило, не работают.
Украинская (не российская!) разработка. Качество поиска - см. http://www.meta.ua/, лингвистика - моя, с постоянной поддержкой и пополнением словарей. Есть халявная версия, коммерческие версии дешевле, чем Яndex.site. Внедрения в госструктурах Украины, в том числе - поиск на портале кабмина Украины.
Есть. Идеальный вариант - это система либо с Информатиковской, либо с моей лингвистикой для русского языка (лучшие анализаторы), и с желанием разработчиков сотрудничать с тобой, докручивать систему под твои нужды, а не предлагать типа "коробочного продукта" as is. Особенно опасайся, если тебе начинают говорить, что при поиске используется какой-либо тезаурус, кроме составленного специально для твоих нужд, словари синонимов, а особенно - АХТУНГ!!! - "семантика". Скажут про семантику - беги :) Так что реальный выбор у тебя - либо Яndex.site, либо софт от Меты.
С уважением, Keva.
Я воздержусь от комментариев, так как мы встречались с Гарантами и достигли некоторых предварительных договоренностей. Назревала некая конфликтная ситуация, однако, надеюсь, мы ее разрешили.
Ну, во-первых, "могли быть написаны" и "написаны" на основе GPL-кода - это разные понятия. И бездоказательные подозрения не являются поводом для открытия исходников.
Во-вторых, я подозреваю, Илья не сильно расстроится, если ему придется их опубликовать или, что достаточно, официально объявить доступными по запросу.
Саше Садовскому: мне кажется, ты несколько заблуждаешься, подменяя суть вопроса :) Аргумент очень простой: утверждение "База некого поисковика по некому сегменту Сети содержит N документов" вовсе не означает, что этот сегмент содержит именно N документов :) На самом деле он содержит их M :)
По нашим данным, в Рунете их 706 тысяч, но среди них очень много растровых, иноязычных и точных копий (дублей).
Илье Сегаловичу: поздравляю с достижением. Жаль, что тебя не было в субботу на распитии пива в Пятом Океане :) Пиво удалось :)
Двортерьер. Мальчик Роман оставил свой телефон и обещал собаку не обижать.
По пути пристроил этого щенка :-)
Посидели просто великолепно! Профессор - тебе отдельный, персональный привет :-) Голова вчера была тяжелая почти до обеда :) Но пивка мы с тобой в приватной беседе хряпнули на славу :)
Полит Мус: заведение подобрал ты для пивного семинара просто великолепное! Свежее пиво, доброжелательный обслуживающий персонал, приятные собеседники - что может быть лучше! :)
Ашманову: Слушай, Игорь, до чего ж приятно с тобой выпивать :) И вот это понимание друг друга с полуслова (если не сталкиваемся на почве русского шансона или Роджера Желязны) - оно тоже поднимает настроение :)
Дамам: вы мне все на самом деле очень нравитесь, это я только поэтому размазивал шашкой. Чтобы джигитом выглядеть :)
Всем: было здорово!
Что значит "резерв"??? Я еще неделю назад Петренке сказал, что Рамблеры будут втроем :)