Морфология

80

iseg

1 марта 2001, 19:26

#11

<font face="Verdana" size="2">Originally posted by vva:
Я где то видел анонс, в котором речь шла уже о использовании синтаксиса в Яндексе. Можно ли расказать поподробнее, в каком виде это происходит()?</font>

У нас на форуме есть и поподробнее.

http://forum.yandex.ru/index.xhtml?pr=&id_note_forum=18358&by_count_days=30&regim=2&cur_page=1&by_count_page=20#forum

С уважением,

Илья Сегалович,

Яндекс

K

80

Keva

14 марта 2001, 01:40

#12

Зайди на этот сайт, он посвящен именно морфологическим анализаторам. С описанием архитектуры, download'ами и т. д.

http://linguist.nm.ru.

С уважением, Андрей Коваленко aka Keva

V

0

vera

2 сентября 2001, 03:17

#13

Добрый день, Илья.

Случайно наткнулась в Интернете на Ваше письмо (см. ниже).

Вы правы, русских словарей cуществует очень много. И кстати говоря, далеко не все они произошли из Зализняка. История некоторых вообще удивительна. Я много чего про них могу рассказать. В Каталоге на http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm эта информация представлена, но иногда в довольно сжатом виде. Хочу найти время и дополнить. И еще мне все твердят, что нужно сделать такой же каталог, но на русском. Не знаю, надо ли это. По-моему, по-английски все читают...

Вы также правы в том, что информация на http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm постепенно устаревает. Действительно, там представлено состояние дел на начало 2000 года. С тех пор много чего изменилось. Пора обновлять. Это большая работа. Некоторые уже прислали свои обновления. Давайте и Вас тоже обновим! Как Вы на это смотрите? Конечно, это займет время, но ведь надо.

Всего хорошего

Вера Семеново (vera.fluhr@wanadoo.fr)

>Я всего лишь не хотел заниматься саморекламой.

>Думаю, что в России не меньше сотни работающих и живых колективовов >лингвистов. Из них, как минимум, половина со словарями русского языка.

>В каталоге Веры Семеновой (Флер) (последняя версия здесь: >http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.

>Там информация примерно годовой-полуторагодовой давности.

>Илья Сегалович,

>Яндекс

D2

22

Dim2

9 января 2002, 19:34

#14

С какой скоростью выполняется алгоритм морфоанализа? Какой при этом объем данных словаря?

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Происходит ли при этом обработка орфокорректором?

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

I

80

iseg

6 февраля 2002, 21:54

#15

У-п-с, пропустил эти вопросы.

Originally posted by Dim2:
С какой скоростью выполняется алгоритм морфоанализа?

Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).

Последний раз когда мерил (году в 1997)

было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.

Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):

time mystem -c <uwords.txt >/dev/null

5.07 real 2.85 user 0.43 sys

Считайте, примерно тысяч 18-19.

Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)

Какой при этом объем данных словаря?

"Объем данных" или "объем словаря"?

so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.

С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.

Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.

Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:


%time self descendents  called...   name
83.8  0.00   125.35                 main()

То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.

Без лемматизации не мерил, но думаю, что

будет процентов на 25 быстрее


%time self descend.. called...    name
22.9  0.25  34.03    4067272      Lemmer::StemWord
      0.94  32.62 3693335/3693335 russian_lemmer
      0.01   0.45  372114/372114  english_stemmer

Происходит ли при этом обработка орфокорректором?

Нет. См. выше.

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.

Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".

Илья

D

15

Dim

14 июня 2002, 10:12

#16

To: iseg

На сколько я помню в Dialog`95 была статья о "Реализации словаря на основе разряженой хэш таблицы" - каждой основе сопоставлялся определенный набор афиксов, а номер вхождения определенной цепочки в хэш-таблицу (14-битный ключ) являлся определяющим для какого-либо слова. Используется ли именно этот идентификатор при инвертировании и сколько байт отводится на одно слово в ИФ?

На какой основе (алгоритме) от слова отбрасываются морфы?

"Михаил Маслов... Для несловарных слов используются идея Белоногова-Аношкиной-моя." Методы перебора? можно ли где-то об этом почитать?

Есть ли ограничения в модели на длину слова?

Опять же о статье Dialog`95 С какой целью ранжировались результаты по частотам встречаемости слов?

"у нас работает колдунщик который может посоветовать вместо "интерьнет" поискать "интернет"...." - какие механизмы в основе колдования:)?

Спеллер? Словарь вариантов заведомо неправильных слов? Поиск на нечеткое равенстово?

Спасибо,

просто очень интересно что как устроено/

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Google: E-E-A-T не является фактором ранжирования