Попробуйте закончить тему морфологии. Не нарушайте по-возможности, все же обеспечьте максимальное покрытие - Поисковые технологии

Поисковые движки

Игорь · 2003-04-01T13:21:30.0000000Z

Коллеги, помогите подобрать партнера )) нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты) я накопал некоторое количество - но испытываю трудности с их сопоставлением - как с точки зрения функциональности, так и с точки зрения удобности партнерства Буду благодарен за советы, подсказки или оценки Пока я нашел в виде продуктов отечественной разработки 8 движков 1. Яndex.Site 2. программы от Stack Ltd 3. Интегрум Техно Артефакт 4. Гарант-парк интернет Content Opimiser 5. Netlogic MorfoIlias 6. Система Irbis - неизвестно чья :)) 7. Галактика ZOOM 8. система от НИВЦ МГУ администратор форума подсказал еще siteMeta от МЕТА и поисковик, доступный на Finds.ru. Есть мнения о качестве систем и т.п.?

K

80

Keva

3 апреля 2003, 14:05

#11

Борис, продолжим? :)

Я же не говорю, что наша морфология лучше всех. Я только утверждаю, что она не хуже Вашей
...
показатели полноты/точности по словоформам/леммам будут у всех одинаково высокими с незначительными отличиями.

Ну, это понятно :) Вот в этих самых отличиях и состоит разница :) Один запрещает множественное число, а другой, по наследству от Великого Словаря Зализняка (без смайликов, словарь действительно великий), его разрешает. Например, у слова "скотоложство". Не пробовали заниматься, к примеру, скотоложствами? :)

Ладно, предлагаю закончить тему морфологий. Готов даже не глядя признать, что ваша и лучше, и полнее... :)
Это ведь никому здесь, кроме нас с вами, не интересно :)

У нас своя коллекция текстов...
... мы используем тезаурус...
... чтобы они помогали при поиске их надо ПРАВИЛЬНО делать...
... на наших текстах ... при СОХРАНЕНИИ точности полнота в 4 раза больше. Результаты опубликованы.

Во-о-от :) Вы сами подтвердили мои самые мрачные подозрения :) Ваша система безупречно работает на ваших текстах. Просто потому, что она под них отлажена! И система машинного перевода ЭТАП-N на конференциях тоже демонстрирует чудеса интеллектуального перевода! Правда, только на текстах, на которых ее отлаживали разработчики :(

Кроме того, тезаурусы для поиска нельзя делать "правильно" или "неправильно". Тезаурус, который увеличивает полноту поиска, не портя отношения "сигнал/шум", или, если угодно, не уменьшая точность, составить можно только одним способом. И способ этот - сузить предметную область до предела.
Более того, такие тезаурусы еще и имеют тенденцию стареть и терять актуальность какое-то время. Небольшое весьма.

Мы, кстати, слово "семантика" сами не любим. И в своей организации я сам приложил руки к закрытию
такого проекта.

:) Семантика: лженаука или продажная девка новой буржуазии? (c) Ашманов, "Диалог-99"

Однако определять тематику общественно-политических текстов
(в том числе на английском языке) мы умеем неплохо, умеем автоматически рубрицировать ... порождать достаточно связную аннотацию.

Это как раз не фокус. И делается это без ручного составления каких-либо словарей. У МедиаЛингвы аннотатор и классификатор были в линейке продуктов уже в 1998 году. Впрочем, и сейчас, кажется, есть.

Кстати, об отечественных искалках. Забыл! Есть еще такой продукт - Следопыт, также от МедиаЛингвы.

С уважением, Андрей Коваленко.

С уважением, Андрей Коваленко aka Keva

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

3 апреля 2003, 14:22

#12

Андрей, Борис, не ссорьтесь!

Да ну что ты, Илья! Мы ж вовсе даже и не... :) У нас тут, понимаешь, дискуссия получается :)

Давайте лучше РОМИПом займемся. :) ... почему это его Рамблер манкирует? :)

Илья, эти решения принимаю не я.

ER

107

EvgRen

3 апреля 2003, 14:22

#13

Как писал Keva
Ладно, предлагаю закончить тему морфологий. Готов даже не глядя признать, что ваша и лучше, и полнее... :)
Это ведь никому здесь, кроме нас с вами, не интересно :)

Нет-нет, продолжайте, очень даже интересно, хоть и непонятно. А то оптимизаторских споров тут сколько угодно, а про то, у кого поисковик лучше, ещё не видел :)

K

80

Keva

3 апреля 2003, 14:24

#14

... у кого поисковик лучше...

А мы поисковики, вроде, не сравниваем :) Мы о самом подходе говорим :)

482

Sergey Petrenko

3 апреля 2003, 14:30

#15

Подход тоже интересен. Так что не нарушайте пункт 4 Правил даже частично :)

AA

70

AlexA

3 апреля 2003, 21:11

#16

Приветствую всех на этом неожиданно разросшемся топике.

Попробую закрыть небольшое белое пятно, да простят меня более сведущие в данном вопросе.

Немного о системе Ирбис.

6. Система Irbis - неизвестно чья

Автор - Максимов Н.В., последнее место работы - РГГУ.

ИПС Ирбис имеет большую историю развития, возможно, не меньше Артефакта, считая и всю предысторию такового (Агама, МИРС).

Используется Ирбис, в основном, в научных библиотеках.

Про нашу Галактику-Зум можно почитать, например, здесь

Что до дискуссии, то тезаурус Бориса (НИВЦ МГУ), скорее всего, лучший сегодня в России. Что до "заточенности", то заточить такой инструмент на миллионе документов дорогого стоит.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

4 апреля 2003, 06:00

#17

Как писал AlexA
ИПС Ирбис имеет большую историю развития, возможно, не меньше Артефакта,

Это точно. Еще году в 1994-м наши потенциальные заказчики выбирали между "Аркадией" (то есть нами), МИРС-ом (Пархоменко) и ИРБИСом (Максимов).

Последние две системы требовали свой собственный входной формат.

Вообще, судя некоторым конференциям (http://www.gpntb.ru/libcom/), ИРБИС доминирует в госструктурах ориентированных на z39.50 (протокол поиска в библиографических данных) и RUSMARC (отчечественная версия USMARC-а - стандартного библиографического формата).

Как писал Keva
насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов

Ты наверное Hull-а имеешь в виду?

Картунен и Ко давно, уже лет 8 как, сделали машинку, которая читает PC-KIMO-вский формат и строит очень быстрый FSM. Они это называют transducer.

В PC-KIMO ужасно противно описывать правила. Таблички надо ручками печатать. Но словарь получается вполне себе закрытый и на корпус вообще не смотрит.

Вот в Америке есть относительно новая програмулька Linguistica (Гольдшмит кажется автор). Так вот он действительно со страшным по силе убежденности пиаром пропагандирует полностью автоматическую систему построения - вчистую по корпусу.

Для языка уагу-дугу действительно альтернативы нет :) (ну нет в уагу-дугу зализняка, ну что поделаешь)

Кстати, к вопросу о русских морфологиях: есть же еще русский бессловарный Портер на sourceforge.net. Snowball. Быстрый как зверь (120 тыщ слов пер сек), "грязный" как "чушка", но думаю получше предлагаемого Борисом отрезания 25 процентов с хвоста. Хоть и чуть-чуть помедленней. :)

А в бесплатных системах (многосерч, аспсик) - царство ispell-а. Только я бы предостерег всех от увлечения этим условным "морфоанализатором". Дело в том, что словарь ispell решает задачи спеллинга и максимально экономно описывает все "разрешенные" в данном языке словоформы. А это не то же самое, что описание слов и их словоизменительных парадигм. Эта трагическая разница хорошо видна в английском ispell-е. Думаю что и в русском она заметна.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

4 апреля 2003, 10:27

#18

Кстати, к вопросу о русских морфологиях: есть же еще русский бессловарный Портер на sourceforge.net. Snowball. Быстрый как зверь (120 тыщ слов пер сек), "грязный" как "чушка", но думаю получше предлагаемого Борисом отрезания 25 процентов с хвоста. Хоть и чуть-чуть помедленней. :)

Ага... И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.

... Только я бы предостерег всех от увлечения этим условным "морфоанализатором". ... Эта трагическая разница хорошо видна в английском ispell-е. Думаю что и в русском она заметна.

Заметна - не то слово! :) Но если выбора нету, а денег заплатить возможности нет, то это лучше, чем ничего :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

6 апреля 2003, 15:14

#19

Как писал Keva
Борис, продолжим? :)

Добрый день!

Как писал Keva

Один запрещает множественное число, а другой, по наследству от Великого Словаря Зализняка (без смайликов, словарь действительно великий), его разрешает. Например, у слова ....

Дискуссия несколько отклоняется от первоначальной темы

"отечественая локальная поисковая система для работы в госсекторе"

(сравнительно небольшое число документов - не более ста тысяч -

достаточно чистых - прогнанных через спелчеккеры :) )

в сторону "какая должна быть морфология русского языка".

Но некоторые вопросы весьма примечательны и их стоит обсудить

подробнее.

Периодически возникает вопрос о борьбе за "чистоту языка".

И это ПРОБЛЕМА, а не задача - в смысле, что решить нельзя,

а можно только приблизить тем или иным способом.

Программа морфологического разбора (словаррная или бессловарная)

включает (или не включает) в себя:

- словарь;

- модели и алгоритмы обработки омонимичных словоформ;

- модели и алгоритмы обработки неизвестных словарю слов.

Есть живой русский язык, проявляющийся в корпусе текстов.

Язык достаточно быстро меняется - появляются новые слова,

видоизменяются правила использования существующих и т.д.

Но есть некая "норма", фиксируемая в авторитетных словарях и

сводах правил.

Беда в том, что эту норму в реальных текстах нарушают все

кому не лень.

Но это их дело. Дело же разработчиков программ морфоразбора

ВЫБРАТЬ: какому из принципов следовать:

- бороться за чистоту "нормы" и перекладывать тяжесть на

модели обработки неизвестных слов

- следовать за текстами - расширять словари, в том числе за

счет "полуошибок" (то есть возможное нарушение "нормы",

но в пределах понимания).

Вопрос о "норме" сам по себе очень сложен. Чего стоит, например,

буква "ё". Я, например, не знаю надо ли склонять словоформу "Keva"

(еще один пример - слышал, что Л.Слиска считает правильным,

чтобы ее фамилию не склоняли - в грамматическом смысле :) тоже).

При этом одна и та же программа морфологии (в той или иной модификации в моделях и словарях) может применяться и как

в качестве ядра системы проверки орфографии (тут надо бороться

за "норму"), так и в качестве компонента ядра ИПС.

В последнем случае могут быть разные решения.

В своей работе мы стремимся, не нарушая по-возможности "норму",

все же обеспечить максимальное покрытие.

Что касается конкретного забавного примера о "ненормальности"

множественного числа у некоторых существительных - одно время

(году в 1994-95) мы чистили словарь (исходно Зализняк) и по

этому критерию. Но затем напоролись на реальные случаи употребления,

пришлось иногда и возвращать.

Ведь пишут, а значит, могут и спросить, ожидая именно правильной

модели морфологического словоизменения, а не просто совпадения

словоформы - это-то сделать элементарно.

Кстати, приведенный примерчик (множественное число) встречается

в свалке Интернета (по индексу Яндекса).

Попробуем подвести итоги.

На мой взгляд к любой морфологии (как комплексу словарей и моделей)

можно предъявить кучку претензий (обычно уже известных заранее

- примерчик-то не нов). Но является ли это принципиальным?

Более важна управляемость процесса:

1) либо Заказчика устраивает, что есть

2) либо все весьма быстро должно быть доработано под конкретные

задачи ("норму" или "тексты"). А это вопрос организации

работ, может быть посчитано (например, с привлечением

внешней экспертизы, если только издержки :) не превысят

выгоды)

Еще пара мелких замечаний.

Как писал Keva

Это как раз не фокус. И делается это без ручного составления каких-либо словарей. У МедиаЛингвы аннотатор и классификатор были в линейке продуктов уже в 1998 году. Впрочем, и сейчас, кажется, есть.

Аннотацию делать легко, можно и без словаоей и т.п. Разница в информативности между аннотациями,

полученными разными методами небольшая (см. <a href="http://www.itl.nist.gov/iaui/894.02/related_projects/tipster_summac/summac-final-report-part2.ps">здесь - 20Мб 😮 файл 1998 года</a>).

Штука в том чтобы сделать СВЯЗНУЮ аннотацию - иногда нужно

(см. на странице 22-23 указанного документа :) ).

Насчет классификаторов. Если количество рубрик не превышает 100,

то предложено туча методов с примерно одинаковыми результатами.

Но! Готов дать два ящика пива тому, кто продемонстрирует свою

работающую автоматическую систему сколько-нибудь качественно равномерно рубрицирующую по 1000 рубрик, например, правовые документы.

А так много чего "есть". Говорят и "синтаксис" есть и "семантика",

чего только не услышишь...

С уважением,

Борис Добров

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

66

Ashmanov

13 апреля 2003, 17:21

#20

Хочу добавить, что есть ещё наша поисковая машина - та, которая работает на FINDS.RU в качестве арендуемого поисковика для сайтов.

Её делал Алексей Иванов и ещё кое-кто.

Иванов - в недавнем прошлом руководитель поиска на Рамблере (2000-2001), а перед этим - технический директор МедиаЛингвы, где под его руководством делались МультиЛекс и Следопыт, а также выпущен Русский семантический сервер для Экскалибура.

Что касается спора о том, чья морфология лучше, то Кева здесь, скорее всего, прав в том смысле, что его лучше. Я с г-жой Жанной Аношкиной и её морфологией имел дело, но тогда это был типично академический продукт, годный только для теоретического рассказа на конференции Диалог и тому подобных. Насколько я помню, там была очень переусложнённая и трудная для программирования и ведения модель. Вообще видел многое, что делали по прикладной лингвистике в НИВЦе - ну да, для диссертаций или курсовых - нормально. А боевых продуктов, используемых массами людей - так и не появилось. А Кева выпускал проверку правописания в 1992 году, работавшую на реальных текстах, и с тех пор не переставал развивать.

Поэтому насчёт лучшего тезауруса в России - как-то я сомневаюсь. Впрочем, может быть, я ошибаюсь и за последние годы что-то изменилось.

Но это имеет не так много отношения к тому, какой поисковик выбрать. Морфология в поисковике - не определяющее звено, как Кева и Илья, конечно, знают. На данном форуме в соответствующих нитках можно найти много примеров ошибок и ложной омонимии в морфологии Яндекса, что, однако, не мешает ему искать и быть поисковиком номер 1 в России.

Но всё-таки нужно обратить внимание на то, что обсуждаются системы разного веса - Кевины продукты, произведение Ильи всё-таки используются массами людей. Остальное - пока не более, чем формальные упражения. Можно просто прикинуть, какого объёма тексты были пропущены через Кевин морфоанализатор и индексатор Ильи за последние три года хотя бы. И при чём здесь будет миллион документов? Это число просто близко к нулю.

Хочу добавить, что использование словаря синонимов и тезауруса при поиске ещё никому не помогало. Это странно и обидно, но это так. Идея вроде хорошая, интуитивная. Просто в реальной обработке текста интуиция часто противоречит жизни. Обработка текстов - штука странная, часто нелепая. В поиске зачастую и морфология мешает.

Вот Гугл принципиально не использует морфологию, ищет только в заданной форме - и ничего, нормально, занял место номер 1.

Про "правильно использовать" - извините, трудно поверить. Это звучит, как расхожая фраза. Да, вот у нас искусственный интеллект - у других не работает, а у нас работает, просто надо правильно использовать...

Я вот не видел ни разу, чтобы от синонимов релевантность повысилась. А шум увеличивается на порядок. Да, собственно, г-н Добров это косвенно признаёт - "возрастает полнота в 4 раза при сохранении релевантности".

Спросите Кеву и Илью - им надо повышать полноту? Только этого им и не хватало! Да им кто бы её понизил, чесс-слово!

Замечу ещё, что есть ещё сложившаяся привычка искать у интернет-пользователей - об этом любит говорить Илья. Так вот у массового пользователя нет привычки искать вдумчиво, по многу слов, с учётом синонимов и гиперонимов с гипонимами. Есть в среднем желание найти ровно заданные слова в тексте.

Для аналитиков ФСБ - наверно, можно предлагать систему с тезаурусом и сложным поиском. Мне кажется, это и есть тайная мечта академических коллективов - поставлять спецслужбам и политикам.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Все что нужно знать о DDоS-атаках грамотному менеджеру

Поисковые движки