Морфология

12
I
На сайте с 15.12.2000
Offline
80
#11

<font face="Verdana" size="2">Originally posted by vva:
Я где то видел анонс, в котором речь шла уже о использовании синтаксиса в Яндексе. Можно ли расказать поподробнее, в каком виде это происходит()?</font>

У нас на форуме есть и поподробнее.

http://forum.yandex.ru/index.xhtml?pr=&id_note_forum=18358&by_count_days=30&regim=2&cur_page=1&by_count_page=20#forum

С уважением,

Илья Сегалович,

Яндекс

K
На сайте с 27.11.2000
Offline
80
#12

Зайди на этот сайт, он посвящен именно морфологическим анализаторам. С описанием архитектуры, download'ами и т. д.

http://linguist.nm.ru.

С уважением, Андрей Коваленко aka Keva
V
На сайте с 01.09.2001
Offline
0
#13

Добрый день, Илья.

Случайно наткнулась в Интернете на Ваше письмо (см. ниже).

Вы правы, русских словарей cуществует очень много. И кстати говоря, далеко не все они произошли из Зализняка. История некоторых вообще удивительна. Я много чего про них могу рассказать. В Каталоге на http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm эта информация представлена, но иногда в довольно сжатом виде. Хочу найти время и дополнить. И еще мне все твердят, что нужно сделать такой же каталог, но на русском. Не знаю, надо ли это. По-моему, по-английски все читают...

Вы также правы в том, что информация на http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm постепенно устаревает. Действительно, там представлено состояние дел на начало 2000 года. С тех пор много чего изменилось. Пора обновлять. Это большая работа. Некоторые уже прислали свои обновления. Давайте и Вас тоже обновим! Как Вы на это смотрите? Конечно, это займет время, но ведь надо.

Всего хорошего

Вера Семеново (vera.fluhr@wanadoo.fr)

&gt;Я всего лишь не хотел заниматься саморекламой.

&gt;Думаю, что в России не меньше сотни работающих и живых колективовов &gt;лингвистов. Из них, как минимум, половина со словарями русского языка.

&gt;В каталоге Веры Семеновой (Флер) (последняя версия здесь: &gt;http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.

&gt;Там информация примерно годовой-полуторагодовой давности.

&gt;Илья Сегалович,

&gt;Яндекс

D2
На сайте с 09.01.2002
Offline
22
#14

С какой скоростью выполняется алгоритм морфоанализа? Какой при этом объем данных словаря?

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Происходит ли при этом обработка орфокорректором?

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

I
На сайте с 15.12.2000
Offline
80
#15

У-п-с, пропустил эти вопросы.

Originally posted by Dim2:
С какой скоростью выполняется алгоритм морфоанализа?

Мой любимый пример - 53 тысячи разных библейских словоформ. Из них около 20 тысяч несловарных (имена и прочее).

Последний раз когда мерил (году в 1997)

было 6 тысяч слов в секунду на FreeBSD (PI 133MhZ) и 14 тысяч на SPARC-е (UltraSPARC II 133MhZ). Тогда правда генерировалось по одной лемме для каждого несловарного слова.

Сейчас вот померил на том же примере (FreeBSD, PIII 800MhZ):

time mystem -c &lt;uwords.txt &gt;/dev/null

5.07 real 2.85 user 0.43 sys

Считайте, примерно тысяч 18-19.

Вообще можно взять mystem с сайта http://corpora.narod.ru да и посчитать самому (там лежат бинарики для 4-х операционок, ограниченные по сроку действия)

Какой при этом объем данных словаря?

"Объем данных" или "объем словаря"?

so-шка (она же dll-ка) чуть больше 2 мегабайт вместе с кодом.

Как долго длится процедура индексаци документа с учетом морфоанализа и без?

Морфоанализ не вызывается подряд на каждом встреченном слове. Естественно. Он встроен в процесс инвертирования несколько хитрее. В большом роботе он жрал раньше процентов до 10 времени. В Яндекс-Сайте процентов до 25.

С этого лета робот разбит на две фазы - (1 -препроцесинг: распознавание, парсирование, архивирование; 2 - сортировка: инвертирование, слияние). Фазы выполняются на разных машинах и поэтому интегральную оценку сделать затруднительно. Как и в обычной индексаторе морфоанализ находится рядом с инвертированием.

Скорость Яндекс-Сайта тоже легко померить скачав триальную версию.

Для нашей коллекции "Архивы OSP" (9273 документа, примерно 80 мегабайт) gprof который я люблю разглядывать пишет так:


%time self descendents called... name
83.8 0.00 125.35 main()

То есть примерно чуть больше двух минут. В реальности же индексации где-то минуты три ждать приходится - то есть получается мегабайт под 30 в минуту.

Без лемматизации не мерил, но думаю, что

будет процентов на 25 быстрее


%time self descend.. called... name
22.9 0.25 34.03 4067272 Lemmer::StemWord
0.94 32.62 3693335/3693335 russian_lemmer
0.01 0.45 372114/372114 english_stemmer

Происходит ли при этом обработка орфокорректором?

Нет. См. выше.

Считаются ли слова с ошибкой, например: Интернет и Интэрнет равноценными?

Кое-какие слова, описанные в словаре явно как варианты одного слова, приводятся к одной лемме. Их очень мало.

Но на стадии поиска у нас работает колдунщик, который может посоветовать вместо "интерьнет" поискать "интернет".

Илья

D
На сайте с 01.02.2001
Offline
15
Dim
#16

To: iseg

На сколько я помню в Dialog`95 была статья о "Реализации словаря на основе разряженой хэш таблицы" - каждой основе сопоставлялся определенный набор афиксов, а номер вхождения определенной цепочки в хэш-таблицу (14-битный ключ) являлся определяющим для какого-либо слова. Используется ли именно этот идентификатор при инвертировании и сколько байт отводится на одно слово в ИФ?

На какой основе (алгоритме) от слова отбрасываются морфы?

"Михаил Маслов... Для несловарных слов используются идея Белоногова-Аношкиной-моя." Методы перебора? можно ли где-то об этом почитать?

Есть ли ограничения в модели на длину слова?

Опять же о статье Dialog`95 С какой целью ранжировались результаты по частотам встречаемости слов?

"у нас работает колдунщик который может посоветовать вместо "интерьнет" поискать "интернет"...." - какие механизмы в основе колдования:)?

Спеллер? Словарь вариантов заведомо неправильных слов? Поиск на нечеткое равенстово?

Спасибо,

просто очень интересно что как устроено/

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий