Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)

Уважаемый bvd!

Keva, Keva, ...

Не буду писать "bvd, bvd...", потому что это - своего рода фамильярность. Ну да ладно, стиль общения каждый выбирает для себя сам.

Типа "сам не читал, но считаю своим долгом заявить..."

...без комментариев...

Уж морфология-то у нас есть и по качеству не хуже
(имени Ж.Аношкиной), по-медленнее, конечно, чем от Keva,
но более чем достаточна для поиска по локальному сайту.

"У нас" - это у кого? А "анализатор имени Аношкиной" - это что, теперь признанный стандарт качества и полноты? Не смешите меня :)
А то так можно сказать, что snowball - это хороший стеммер, а словник ispell от А. Лебедева - это морфоанализатор :) Система Аношкиной есть, вообще говоря, хорошая, добросовестная научная работа, но уж никак не выверенный лингвистический материал!

Но задачи бывают разные, и правильный ответ - для каждой
задачи нужен свой метод (одной морфологией все не сделать).

В целом - соглашусь, однако в контексте обсуждения (нужен поиск для больших массивов документов) Вы категорически неправы. Я, несмотря на Ваше утверждение о том, что я "сделал только морфоанализатор", успел спроектировать, реализовать и запустить - приоткрою завесу - не только его :) Еще в моем послужном списке большие поисковики - Апорт и Рамблер, орфографический и грамматический корректор Пропись, да и ряд других продуктов и технологий, выходящих за рамки данной темы. Впрочем, об этом Вы можете почитать на моем сайте.
Так вот, поверьте, в поисковых системах, работающих с большими объемами данных (а Вы, кстати, когда-нибудь индексировали хотя бы десяток-другой гигабайт?), мы не используем словари синонимов или словообразовательные словари вовсе не потому, что у нас их нету или мы не умеем этого делать :) Просто потому, что их использование откровенно вредит качеству поиска.
Более того, мне до сих пор никто не показал ни реально работающей (не "из рук разработчика") поисковой системы, которая использовала бы "семантику", ни какой-либо другой полнотекстовой системы с семантическим компонентом, ни, кстати, системы машинного перевода. Но это уже другая опера.
Впрочем, ставлю ящик пива тому, кто мне ее покажет.

Более того, Игорю (судя по всему из города Питера)

Игорь - это Ашманов. Из Москвы.

С уважением, Андрей Коваленко.

Привет, Илья!

Это не совсем так.

Есть и такое мнение :)

1. Verity и UltraSeek (позже Inktomi, а теперь тоже Verity) закупались в свое время у Европейского Ксерокса (Xerox Research Center Europe в Гренобле, точнее их коммерческий отдел - LinguistX). Алгоритмы там стандартные выросшие из PC-KIMO, то есть заточенные под все морфологии на свете. Автор трансдьюсера - Картунен.

Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.

...но качество лингвистических данных... Как бы это сказать... Ну, несколько хромает :) Кроме того, насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов, и здесь это тоже сыграло роль.

3. Еще есть финны, которые торгуют русской морфологией для поисковых систем. www.lingsoft.fi

...а этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Нет, Илья, в Экскалибуре - не моя. Это Игорь. Еще Информатиковских времен.

Андрей.


нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты)

Вот это - правильный подход! Кроме шуток. Просто по той причине, что отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.

я накопал некоторое количество - но испытываю трудности с их сопоставлением - как с точки зрения функциональности, так и с точки зрения удобности партнерства

Попробую прокомментировать:

1. Яndex.Site

Стабильно работающий, добротный продукт. Работает не сильно быстро. Применяется в массе мест. Есть халявная версия. Лицензия для использования - достаточно дорогая.

2. программы от Stack Ltd

С точки зрения качества поиска можно оценить их статику на www.turtle.ru, динамику - по ссылке с их сайта. Разработка Димы Крюкова, автора первой версии Рамблера, при участии Олега Бартунова и Жени Родичева. Лингвистика приобретена моя, однако, похоже, Родичев вмешивался туда, так что качество оной упало.

3. Интегрум Техно Артефакт

Поисковая машина, выросшая из проекта "ИПС Агама", она же - "ИПС МИРС", она же - далее - "ИПС Артефакт". Заточена под работу с модерируемыми объемами информации. Руководитель разработки и идеолог - Владимир Пархоменко, мой учитель. Высокое качество поиска по коллекциям документов. Недостаток - система слишком сильно заточена была при разработке на Win32.

4. Гарант-парк интернет Content Opimiser

"Плюха" для Oracle, весьма тяжелая и дорогая. Лингвистика - изначально - моя, однако в нее тоже лазили руками. Словник - на уровне 1994 года


5. Netlogic MorfoIlias
6. Система Irbis - неизвестно чья :))

Без комментариев. Не знаю.

система от НИВЦ МГУ

Как и любая система от госструктур, наполнена блестящими научными идеями, и неплохо должна работать на объемах данных, составленных авторами системы. На реальных данных "блестящие идеи", как правило, не работают.

siteMeta от МЕТА

Украинская (не российская!) разработка. Качество поиска - см. http://www.meta.ua/, лингвистика - моя, с постоянной поддержкой и пополнением словарей. Есть халявная версия, коммерческие версии дешевле, чем Яndex.site. Внедрения в госструктурах Украины, в том числе - поиск на портале кабмина Украины.

Есть мнения о качестве систем и т.п.?

Есть. Идеальный вариант - это система либо с Информатиковской, либо с моей лингвистикой для русского языка (лучшие анализаторы), и с желанием разработчиков сотрудничать с тобой, докручивать систему под твои нужды, а не предлагать типа "коробочного продукта" as is. Особенно опасайся, если тебе начинают говорить, что при поиске используется какой-либо тезаурус, кроме составленного специально для твоих нужд, словари синонимов, а особенно - АХТУНГ!!! - "семантика". Скажут про семантику - беги :)

Так что реальный выбор у тебя - либо Яndex.site, либо софт от Меты.

С уважением, Keva.

...что вы такого спросили в форуме RCO, что сообщение почистили?

Я воздержусь от комментариев, так как мы встречались с Гарантами и достигли некоторых предварительных договоренностей. Назревала некая конфликтная ситуация, однако, надеюсь, мы ее разрешили.

Как писал kostik
...как Вы отнесетесь, например, к чьему-либо требованию открыть исходники своих фильтров только на том основании, что они могли быть написаны на основе GPL кода ?

Ну, во-первых, "могли быть написаны" и "написаны" на основе GPL-кода - это разные понятия. И бездоказательные подозрения не являются поводом для открытия исходников.

Во-вторых, я подозреваю, Илья не сильно расстроится, если ему придется их опубликовать или, что достаточно, официально объявить доступными по запросу.

Как писал funsad

Это нетрудно выяснить экспериментально. PDF -- примерно 50 тысяч файлов, RTF -- около 10 тысяч.

Саше Садовскому: мне кажется, ты несколько заблуждаешься, подменяя суть вопроса :) Аргумент очень простой: утверждение "База некого поисковика по некому сегменту Сети содержит N документов" вовсе не означает, что этот сегмент содержит именно N документов :) На самом деле он содержит их M :)

По нашим данным, в Рунете их 706 тысяч, но среди них очень много растровых, иноязычных и точных копий (дублей).

Илье Сегаловичу: поздравляю с достижением. Жаль, что тебя не было в субботу на распитии пива в Пятом Океане :) Пиво удалось :)

Как писал Wasya

А что за собака???

Двортерьер. Мальчик Роман оставил свой телефон и обещал собаку не обижать.

По пути пристроил этого щенка :-)

Посидели просто великолепно! Профессор - тебе отдельный, персональный привет :-) Голова вчера была тяжелая почти до обеда :) Но пивка мы с тобой в приватной беседе хряпнули на славу :)

Полит Мус: заведение подобрал ты для пивного семинара просто великолепное! Свежее пиво, доброжелательный обслуживающий персонал, приятные собеседники - что может быть лучше! :)

Ашманову: Слушай, Игорь, до чего ж приятно с тобой выпивать :) И вот это понимание друг друга с полуслова (если не сталкиваемся на почве русского шансона или Роджера Желязны) - оно тоже поднимает настроение :)

Дамам: вы мне все на самом деле очень нравитесь, это я только поэтому размазивал шашкой. Чтобы джигитом выглядеть :)

Всем: было здорово!

Резерв был с расчетом на представителей поисковиков.

Что значит "резерв"??? Я еще неделю назад Петренке сказал, что Рамблеры будут втроем :)

Всего: 238