Морфология

12
D
На сайте с 01.02.2001
Offline
15
Dim
3033

К сожалению в интернете мало освящена проблематика поиска информации… Заранее благодарю всех кто просвятит в следующих вопросах…

1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?

2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются?

3) Как организован пословный индекс для незнакомых слов.

I
На сайте с 15.12.2000
Offline
80
#1

<font face="Verdana" size="2">Originally posted by Dim:
1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?</font>

Самое правиьное - обратиться к лингвистам или купить у любого изготовителя таких словарей. Я подозреваю, что этот форум не место для рекламы, поэтому я не буду никакой конкретики здесь писать.

<font face="Verdana" size="2">2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются? </font>

Исходные данные - словарь Зализняка в морфологическом формате ЭТАП (Апресян, Санников).

Внутреннее представление и алгоритмы - в искалке - мои. Автор большой части алгоритмов в Яндекс-Дикте - Михаил Маслов.

Для несловарных слов используются идея Белоногова-Аношкиной-моя. "моя" в том смысле, что дошел сам, а потом узнал, что был не первым

<font face="Verdana" size="2">3) Как организован пословный индекс для незнакомых слов.</font>

Также как и для словарных. Этим яндекс отличается от других искалок.

Илья Сегалович,

Яндекс

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.

D
На сайте с 01.02.2001
Offline
15
Dim
#3

4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?

F
На сайте с 15.11.2000
Offline
116
#4

Для тех, кто не знает: форум Яндекса находится по адресу

http://forum.yandex.ru/?forum=188

Хотя, думаю, все будут благодарны, если ответы сотрудников Яндекса будут затем скопированы с форума сюда. Информацию в одном месте легче читать.

С уважением,

Александр Садовский.

I
На сайте с 15.12.2000
Offline
80
#5

<font face="Verdana" size="2">Originally posted by Gray:
Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.</font>

Я всего лишь не хотел заниматься саморекламой.

Думаю, что в России не меньше сотни работающих и живых колективовов лингвистов. Из них, как минимум, половина со словарями русского языка.

В каталоге Веры Семеновой (Флер) (последняя версия здесь: http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.

Там информация примерно годовой-полуторагодовой давности.

Илья Сегалович,

Яндекс

I
На сайте с 15.12.2000
Offline
80
#6

<font face="Verdana" size="2">Originally posted by Dim:
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?</font>

Производится морфологический разбор, небольшой по-документный статистический аннлиз.

Вообще, анализ корпуса текстов и построение индекса производится у нас со скоростью 10-25 мегабайт в минуту. Делать медленней - означает тормозить робота.

Транслитерированных текстов в рунете - колоссальное количество. Практически каждый Апач им. Тутубалина по порту 808x швырят какой-нибудь доморощенный транслит.

"Разтранслитерация" у нас есть, и даже довольно быстрая, но делать ее "риал-тайм" при индексировании - это бредовая идея. Тем более, что многие люди ищут слова именно набранные латиницей.

Орфографические ошибки не исправляются. Гипотезы о новом словообразвании не строятся. А зачем?

Илья Сегалович,

Яндекс

D
На сайте с 01.02.2001
Offline
15
Dim
#7

Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).

5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?

Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)

6) Где хранится словарь парадигм (хэш-таблица)?

I
На сайте с 15.12.2000
Offline
80
#8

<font face="Verdana" size="2">Originally posted by Dim:
Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).</font>

Примеры, которые Вы приводите - это не "омонимия", а, скорее, "синонимия". И не новое словообразование, а, скорее, новые аббревиатуры.

Словобразование, это когда по слову "компьютер", которое, допустим, есть в словаре, система находит еще и слово "недокомпьютеризованный". Мы не считаем это самой нужной и полезной вещью.

<font face="Verdana" size="2">5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?</font>

Гипотезы выдвигаются? используя очень простую меру сходства. (см предыдущий пост).

Конечно же бывают слова, для который найти образец не удается - они считаются неизменяемыми.

<font face="Verdana" size="2">Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)</font>

RealNames это не автоопределение имен собственных, а словарь зарегестрированных ключевых слов интернета. Что-то вроде базы товарных знаков ВНИИГПЭ или же names.ru.

Альтависта ничего при индексировании с именами не делает. Она, так же как и Гугль, iWon и MSN-Search, использует эту базу при поиске и берет с RealNames деньги за популяризацию. (А тот, в свою очередь, собирает деньги с регистраторов)

<font face="Verdana" size="2">6) Где хранится словарь парадигм (хэш-таблица)? </font>

Моя статья (про хэш-таблицу) описывает морфологию Янекса периода весна 1993- весна 1996 годов. Публичный Яндекс, как Яндекс-Сайт так и Яндекс-Веб работали с самого начала по другим алгоритмам. (см. предыдущий пост)

Илья Сегалович,

Яндекс

D
На сайте с 01.02.2001
Offline
15
Dim
#9

Если решать задачу поиска, то в первую очередь - это работа со словарем... Если слово есть в словаре, то строится индекс с учетом морфологии (по лемме, если я правильно понимаю ). Если слова нет в словаре, то используя когнитивные механизмы можно выявить лемму и проиндексировать с учетом выдвинутой гипотезы.

Чем больше словарь, тем дольше идет поиск слова. Чем меньше, тем больше неполната поиска. В связи с этим...

7) Сколько слов знает Яndex и сколько Мб они занимают. Каково оптимальное значение.

8)По каким словам анализ не осуществляется?

V
На сайте с 28.02.2001
Offline
0
vva
#10

Извините, что вмешиваюсь в ваш разговор.

Мне тоже кажется, что использование морфологии в поисковике - пройденный и освоенный этап. Я где то видел анонс, в котором речь шла уже о использовании синтаксиса в Яндексе. Можно ли расказать поподробнее, в каком виде это происходит()?

В частности интересно:

1. какие словосочетания выделяет система (не верю, что все)

2. какие словосочетания (по какому признаку) заносятся в поисковый образ.

3. решается ли как-нибудь, или планируется ли решаться проблемы ссылок и эллипсиса? По моему, это очень сильно должно повлиять на частнотные характеристики слов-словосочетаний.

Если есть ссылка с уже готовыми ответами, тоже буду благодарен.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий