Морфология

15

Dim

1 февраля 2001, 23:12

3033

К сожалению в интернете мало освящена проблематика поиска информации… Заранее благодарю всех кто просвятит в следующих вопросах…

1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?

2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются?

3) Как организован пословный индекс для незнакомых слов.

I

80

iseg

2 февраля 2001, 00:28

#1

Originally posted by Dim:
1) Как организовать компактный словарь лемм, где взять информацию о правилах отброса аффиксов и суффиксов?

Самое правиьное - обратиться к лингвистам или купить у любого изготовителя таких словарей. Я подозреваю, что этот форум не место для рекламы, поэтому я не буду никакой конкретики здесь писать.

2) Как Яndex учитывает морфологию русского языка? Какие когнитивные методы при этом используются?

Исходные данные - словарь Зализняка в морфологическом формате ЭТАП (Апресян, Санников).

Внутреннее представление и алгоритмы - в искалке - мои. Автор большой части алгоритмов в Яндекс-Дикте - Михаил Маслов.

Для несловарных слов используются идея Белоногова-Аношкиной-моя. "моя" в том смысле, что дошел сам, а потом узнал, что был не первым

3) Как организован пословный индекс для незнакомых слов.

Также как и для словарных. Этим яндекс отличается от других искалок.

Илья Сегалович,

Яндекс

482

Sergey Petrenko

2 февраля 2001, 00:59

#2

Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.

Помощь в фильтрации ботов Какие цены на интеграцию Вопросы представителю Яндекса

D

15

Dim

2 февраля 2001, 19:05

#3

4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?

F

116

funsad

5 февраля 2001, 05:40

#4

Для тех, кто не знает: форум Яндекса находится по адресу

http://forum.yandex.ru/?forum=188

Хотя, думаю, все будут благодарны, если ответы сотрудников Яндекса будут затем скопированы с форума сюда. Информацию в одном месте легче читать.

С уважением,

Александр Садовский.

I

80

iseg

8 февраля 2001, 17:44

#5

Originally posted by Gray:
Илья, на форуме не приветствуется реклама, не относящаяся к вопросу. Точнее, от чего я хочу обезопасить форум - от заявлений "посмотри все на моем на сайте". Поэтому вы можете помещать здесь ссылки, я уверен, что они никому не помешают.

Я всего лишь не хотел заниматься саморекламой.

Думаю, что в России не меньше сотни работающих и живых колективовов лингвистов. Из них, как минимум, половина со словарями русского языка.

В каталоге Веры Семеновой (Флер) (последняя версия здесь: http://schools.keldysh.ru/uvk1838/Sciper/catalog.htm ) почти все перечислены.

Там информация примерно годовой-полуторагодовой давности.

Илья Сегалович,

Яндекс

I

80

iseg

8 февраля 2001, 17:55

#6

Originally posted by Dim:
4)Какие методы задействованы в Яndex при анализе корпуса текста? Производится ли анализ на предмет орфографических ошибок, ошибок транслитерации... Обрабатываются гипотезы о новом словообразовании?

Производится морфологический разбор, небольшой по-документный статистический аннлиз.

Вообще, анализ корпуса текстов и построение индекса производится у нас со скоростью 10-25 мегабайт в минуту. Делать медленней - означает тормозить робота.

Транслитерированных текстов в рунете - колоссальное количество. Практически каждый Апач им. Тутубалина по порту 808x швырят какой-нибудь доморощенный транслит.

"Разтранслитерация" у нас есть, и даже довольно быстрая, но делать ее "риал-тайм" при индексировании - это бредовая идея. Тем более, что многие люди ищут слова именно набранные латиницей.

Орфографические ошибки не исправляются. Гипотезы о новом словообразвании не строятся. А зачем?

Илья Сегалович,

Яндекс

D

15

Dim

8 февраля 2001, 21:08

#7

Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).

5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?

Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)

6) Где хранится словарь парадигм (хэш-таблица)?

I

80

iseg

10 февраля 2001, 18:18

#8

Originally posted by Dim:
Думаю гипотезы о новом словообразовании интересны в ракурсе омонимии (кпу, комп, компьютер).

Примеры, которые Вы приводите - это не "омонимия", а, скорее, "синонимия". И не новое словообразование, а, скорее, новые аббревиатуры.

Словобразование, это когда по слову "компьютер", которое, допустим, есть в словаре, система находит еще и слово "недокомпьютеризованный". Мы не считаем это самой нужной и полезной вещью.

5)Как происходит выдвижение гипотез о схожести парадигмы незнакомого слова с известной парадигмой? Может ли случиться так, что Яndex не сможет выдвинуть такую гипотезу? Произойдент ли в этом случае потеря информации или же индекс будет создан?

Гипотезы выдвигаются? используя очень простую меру сходства. (см предыдущий пост).

Конечно же бывают слова, для который найти образец не удается - они считаются неизменяемыми.

Определяет ли Яndex имена собственные?(Аltavista предлагает Realname)

RealNames это не автоопределение имен собственных, а словарь зарегестрированных ключевых слов интернета. Что-то вроде базы товарных знаков ВНИИГПЭ или же names.ru.

Альтависта ничего при индексировании с именами не делает. Она, так же как и Гугль, iWon и MSN-Search, использует эту базу при поиске и берет с RealNames деньги за популяризацию. (А тот, в свою очередь, собирает деньги с регистраторов)

6) Где хранится словарь парадигм (хэш-таблица)?

Моя статья (про хэш-таблицу) описывает морфологию Янекса периода весна 1993- весна 1996 годов. Публичный Яндекс, как Яндекс-Сайт так и Яндекс-Веб работали с самого начала по другим алгоритмам. (см. предыдущий пост)

Илья Сегалович,

Яндекс

D

15

Dim

13 февраля 2001, 15:30

#9

Если решать задачу поиска, то в первую очередь - это работа со словарем... Если слово есть в словаре, то строится индекс с учетом морфологии (по лемме, если я правильно понимаю ). Если слова нет в словаре, то используя когнитивные механизмы можно выявить лемму и проиндексировать с учетом выдвинутой гипотезы.

Чем больше словарь, тем дольше идет поиск слова. Чем меньше, тем больше неполната поиска. В связи с этим...

7) Сколько слов знает Яndex и сколько Мб они занимают. Каково оптимальное значение.

8)По каким словам анализ не осуществляется?

V

0

vva

28 февраля 2001, 05:27

#10

Извините, что вмешиваюсь в ваш разговор.

Мне тоже кажется, что использование морфологии в поисковике - пройденный и освоенный этап. Я где то видел анонс, в котором речь шла уже о использовании синтаксиса в Яндексе. Можно ли расказать поподробнее, в каком виде это происходит()?

В частности интересно:

1. какие словосочетания выделяет система (не верю, что все)

2. какие словосочетания (по какому признаку) заносятся в поисковый образ.

3. решается ли как-нибудь, или планируется ли решаться проблемы ссылок и эллипсиса? По моему, это очень сильно должно повлиять на частнотные характеристики слов-словосочетаний.

Если есть ссылка с уже готовыми ответами, тоже буду благодарен.

Что делать, если ваша email-рассылка попала в спам

Дзен реализовал для авторов возможность вывода денег через СПБ