Алгоритмы

1 234 5
B
На сайте с 25.09.2001
Offline
42
#21

И опять не могу не поделиться интересной находкой на ниве филологии:

Словарь омонимичных словоформ:

http://irlras-cfrl.rema.ru:8100/homoforms/index.htm

внизу есть маленькая сылочка - "скопировать", которая ведет на зип:

http://irlras-cfrl.rema.ru:8100/homoforms/download/homodic.zip

вот так.......

эх, теперь бы определиться, как все это использовать......

Baranov Evgeny
K
На сайте с 27.11.2000
Offline
80
#22

Вообще говоря, технологии, которые выложены на http://linguist.nm.ru/, не такие уж и коммерческие, как кажется :-)

Они доступны совершенно бесплатно - для некоммерческого, естественно, использования.

С уважением, Андрей Коваленко aka Keva
I
На сайте с 15.12.2000
Offline
80
#23

1. Литература по поиску.

Совет - идти на Amazon и покупать книжки.

Какие мои любимые не скажу, а то прочитаете

А честно, рикардо baezo-yates и компания - весьма всеобъемлюще.

2. Программ по поиску с исходниками в интернете тьма: это и FFW, MG (managing Gigabytes), Agrep, Isearch, WAIS, по-моему, даже я видел когда-то оригинльный солтоновский СМАРТ (но сейчас поискал и не нашел ). Сам я их _не_ читал - читать их, IMHO, вредно - лучше писать самому и писать "лучше". Есть и русские freeware типа mnogosearch, aspseek - тоже с исходниками.

3. Морфология и поиск вещи связанные но не одно и то же. По морфологиям я рекомендую Кимо Коскониеми (PC-KIMO) и всю ксероксо-гренобльскую линию.

Илья

P.S.

А зачем слова обязательно в числа превращать? Можно и без этого вполне обойтись.

B
На сайте с 25.09.2001
Offline
42
#24

<font face="Verdana" size="2">Originally posted by Keva:
Вообще говоря, технологии, которые выложены на http://linguist.nm.ru/, не такие уж и коммерческие, как кажется :-)
Они доступны совершенно бесплатно - для некоммерческого, естественно, использования.
</font>

Насколько я понял бесплатно можно взять в усеченном виде. А это все равно, что ничего....

А сама технология описана достаточно поверхностно, и на мой взгляд просто рекламма.

Не понравилось мне....

B
На сайте с 25.09.2001
Offline
42
#25

<font face="Verdana" size="2">Originally posted by iseg:
1. Литература по поиску.
Совет - идти на Amazon и покупать книжки.
Какие мои любимые не скажу, а то прочитаете
</font>

Врядтли, если честно. Не очень люблю читать по английски.

<font face="Verdana" size="2">
А честно, рикардо baezo-yates и компания - весьма всеобъемлюще.
</font>

А это что такое?

<font face="Verdana" size="2">
2. Программ по поиску с исходниками в интернете тьма: это и FFW, MG (managing Gigabytes), Agrep, Isearch, WAIS, по-моему, даже я видел когда-то оригинльный солтоновский СМАРТ (но сейчас поискал и не нашел ). Сам я их _не_ читал - читать их, IMHO, вредно - лучше писать самому и писать "лучше". Есть и русские freeware типа mnogosearch, aspseek - тоже с исходниками.
</font>

посмотрел их - как то безрадостно стало... с русским у многих проблемы например (Isearch).

А что это за СМАРТ?

<font face="Verdana" size="2">
3. Морфология и поиск вещи связанные но не одно и то же. По морфологиям я рекомендую Кимо Коскониеми (PC-KIMO) и всю ксероксо-гренобльскую линию.
</font>

Ничего не нашел ... есть ли материалы в вебе?

<font face="Verdana" size="2">
А зачем слова обязательно в числа превращать? Можно и без этого вполне обойтись. </font>

Наверное считается, что так быстрее...

я тоже не хотел бы этим заниматься посредством криптографии. Проще помоему держать словарь и оттуда брать коды слов, а точне лексем.

собственно весь этот разговор и затеян был, для того чтобы узнать как это лучше делать...

K
На сайте с 27.11.2000
Offline
80
#26

<font face="Verdana" size="2">Originally posted by baranov:
Насколько я понял бесплатно можно взять в усеченном виде. А это все равно, что ничего....
А сама технология описана достаточно поверхностно, и на мой взгляд просто рекламма.
Не понравилось мне....

</font>

В усеченном виде, т. е. без слов на буквы 'п' и 'р', можно взять просто с сайта. А полную версию можно получить тоже бесплатно, но после подписания договора о некоммерческом использовании.

B
На сайте с 25.09.2001
Offline
42
#27

<font face="Verdana" size="2">Originally posted by Keva:
В усеченном виде, т. е. без слов на буквы 'п' и 'р', можно взять просто с сайта. А полную версию можно получить тоже бесплатно, но после подписания договора о некоммерческом использовании.</font>

Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....

Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.

правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....

VT
На сайте с 27.01.2001
Offline
130
#28

<font face="Verdana" size="2">Originally posted by baranov:
Здорово все....
А есть ли менее комерческие реализации?
или более простые решения - по типу того, что я говорил - отбрасывать окончания и возможно суффикс за компанию....
</font>

Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )

А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.

Хотя мне, в принципе, уже удалось создать довольно работоспособный

морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.

В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

I
На сайте с 15.12.2000
Offline
80
#29

<font face="Verdana" size="2">Originally posted by baranov:
Врядтли, если честно. Не очень люблю читать по английски.</font>

Это фатально.

<font face="Verdana" size="2">Originally posted by baranov:
А это что такое?</font>

<font face="Verdana" size="2">Originally posted by baranov:
Ничего не нашел ... есть ли материалы в вебе?</font>

Материалы в вебе очень помогают найти поисковые системы.

<font face="Verdana" size="2">Originally posted by baranov:
собственно весь этот разговор и затеян был, для того чтобы узнать как это лучше делать...</font>

Спешу вас огорчить, что это делать незачем. Так что весь разговор вполне бесмыссленен.

Илья

B
На сайте с 25.09.2001
Offline
42
#30

<font face="Verdana" size="2">Originally posted by iseg:
Спешу вас огорчить, что это делать незачем. Так что весь разговор вполне бесмыссленен.
Илья
</font>

Ну поче му же? Познание нового и получение информации вещь вполне наполненная смыслом. Если бы вы так не считали, не тратили бы время на этот форум. и на другие тоже.

А насчет английского - это вполне понятно, учитывая, что мой родной язык русскмй и на данный момент информации на русском вполне достаточно

Тем более, что 1 из аспектов данного вопроса касается русского языка (морфология).

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий