baranov

Рейтинг
42
Регистрация
25.09.2001
Должность
webmaster

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Это стемминг называется. Прямо скажем, решение не совсем удачное, но когда вообще ничего нет и в прикладной лингвистике не разбираешься, на первое время сойдет. Хотя тогда начинают возникать интересные казусы. Например, по запросу 'лес' начинает находиться 'лесби' и т.д. (вон Keva хорошо знает, это его любимый запрос )
</font>

А если делат это по аналогу ispell? я мельком глянул, какая у них оргганизация данны - по моему очень подходит... и казусов таких не будет кстати в "лесби" корень разве "лес"?

<font face="Verdana" size="2">
А вообще собрать морфологию просто так, на ровном месте, очень трудно, даже если ты семи пядей во лбу - там одних только морфологических таблиц должно быть не менее 700 и взять их можно только у лингвистов или пытаться как-то синтезировать из подручных средств.
</font>

Все мои знакомые филологи занимаются не русским и на комп косо смотрят.... Про веб слышали только от меня. работа у них такая...

<font face="Verdana" size="2">
Хотя мне, в принципе, уже удалось создать довольно работоспособный
морфологический анализатор для существительных и прилагательных, который, правда, учитывает пока не все аспекты русского языка.

Слово "лес" не испохабил
но вот это не съел:

Парадигма для слова морфий:
морф морфы морфа морфов морфу морфам морф морфы морфом морфами морфе морфах


</font>

В общем, морфология - это куча хлопот и времени, так что если ее предлагают почти бесплатно, берите

это точно. Но мне интереснее самому в этом разобраться в комплекте с организацией данных.

<font face="Verdana" size="2">Originally posted by iseg:
Спешу вас огорчить, что это делать незачем. Так что весь разговор вполне бесмыссленен.
Илья
</font>

Ну поче му же? Познание нового и получение информации вещь вполне наполненная смыслом. Если бы вы так не считали, не тратили бы время на этот форум. и на другие тоже.

А насчет английского - это вполне понятно, учитывая, что мой родной язык русскмй и на данный момент информации на русском вполне достаточно

Тем более, что 1 из аспектов данного вопроса касается русского языка (морфология).

<font face="Verdana" size="2">Originally posted by iseg:
Спешу вас огорчить, что это делать незачем. Так что весь разговор вполне бесмыссленен.
Илья
</font>

Ну поче му же? Познание нового и получение информации вещь вполне наполненная смыслом. Если бы вы так не считали, не тратили бы время на этот форум. и на другие тоже.

А насчет английского - это вполне понятно, учитывая, что мой родной язык русскмй и на данный момент информации на русском вполне достаточно

Тем более, что 1 из аспектов данного вопроса касается русского языка (морфология).

<font face="Verdana" size="2">Originally posted by Keva:
В усеченном виде, т. е. без слов на буквы 'п' и 'р', можно взять просто с сайта. А полную версию можно получить тоже бесплатно, но после подписания договора о некоммерческом использовании.</font>

Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....

Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.

правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....

<font face="Verdana" size="2">Originally posted by Keva:
В усеченном виде, т. е. без слов на буквы 'п' и 'р', можно взять просто с сайта. А полную версию можно получить тоже бесплатно, но после подписания договора о некоммерческом использовании.</font>

Я так понимаю, что мне выпала честь общаться лично с автором? Очень приятно.....

Я на самом деле готов подписать этот договор... особенно после уточнения что же называть коммерческим использованием.

правда есть шанс, что у меня вообще не получится полученный материал использовать. Жизнь - сложная штука....

<font face="Verdana" size="2">Originally posted by iseg:
1. Литература по поиску.
Совет - идти на Amazon и покупать книжки.
Какие мои любимые не скажу, а то прочитаете
</font>

Врядтли, если честно. Не очень люблю читать по английски.

<font face="Verdana" size="2">
А честно, рикардо baezo-yates и компания - весьма всеобъемлюще.
</font>

А это что такое?

<font face="Verdana" size="2">
2. Программ по поиску с исходниками в интернете тьма: это и FFW, MG (managing Gigabytes), Agrep, Isearch, WAIS, по-моему, даже я видел когда-то оригинльный солтоновский СМАРТ (но сейчас поискал и не нашел ). Сам я их _не_ читал - читать их, IMHO, вредно - лучше писать самому и писать "лучше". Есть и русские freeware типа mnogosearch, aspseek - тоже с исходниками.
</font>

посмотрел их - как то безрадостно стало... с русским у многих проблемы например (Isearch).

А что это за СМАРТ?

<font face="Verdana" size="2">
3. Морфология и поиск вещи связанные но не одно и то же. По морфологиям я рекомендую Кимо Коскониеми (PC-KIMO) и всю ксероксо-гренобльскую линию.
</font>

Ничего не нашел ... есть ли материалы в вебе?

<font face="Verdana" size="2">
А зачем слова обязательно в числа превращать? Можно и без этого вполне обойтись. </font>

Наверное считается, что так быстрее...

я тоже не хотел бы этим заниматься посредством криптографии. Проще помоему держать словарь и оттуда брать коды слов, а точне лексем.

собственно весь этот разговор и затеян был, для того чтобы узнать как это лучше делать...

<font face="Verdana" size="2">Originally posted by iseg:
1. Литература по поиску.
Совет - идти на Amazon и покупать книжки.
Какие мои любимые не скажу, а то прочитаете
</font>

Врядтли, если честно. Не очень люблю читать по английски.

<font face="Verdana" size="2">
А честно, рикардо baezo-yates и компания - весьма всеобъемлюще.
</font>

А это что такое?

<font face="Verdana" size="2">
2. Программ по поиску с исходниками в интернете тьма: это и FFW, MG (managing Gigabytes), Agrep, Isearch, WAIS, по-моему, даже я видел когда-то оригинльный солтоновский СМАРТ (но сейчас поискал и не нашел ). Сам я их _не_ читал - читать их, IMHO, вредно - лучше писать самому и писать "лучше". Есть и русские freeware типа mnogosearch, aspseek - тоже с исходниками.
</font>

посмотрел их - как то безрадостно стало... с русским у многих проблемы например (Isearch).

А что это за СМАРТ?

<font face="Verdana" size="2">
3. Морфология и поиск вещи связанные но не одно и то же. По морфологиям я рекомендую Кимо Коскониеми (PC-KIMO) и всю ксероксо-гренобльскую линию.
</font>

Ничего не нашел ... есть ли материалы в вебе?

<font face="Verdana" size="2">
А зачем слова обязательно в числа превращать? Можно и без этого вполне обойтись. </font>

Наверное считается, что так быстрее...

я тоже не хотел бы этим заниматься посредством криптографии. Проще помоему держать словарь и оттуда брать коды слов, а точне лексем.

собственно весь этот разговор и затеян был, для того чтобы узнать как это лучше делать...

<font face="Verdana" size="2">Originally posted by Keva:
Вообще говоря, технологии, которые выложены на http://linguist.nm.ru/, не такие уж и коммерческие, как кажется :-)
Они доступны совершенно бесплатно - для некоммерческого, естественно, использования.
</font>

Насколько я понял бесплатно можно взять в усеченном виде. А это все равно, что ничего....

А сама технология описана достаточно поверхностно, и на мой взгляд просто рекламма.

Не понравилось мне....

<font face="Verdana" size="2">Originally posted by Keva:
Вообще говоря, технологии, которые выложены на http://linguist.nm.ru/, не такие уж и коммерческие, как кажется :-)
Они доступны совершенно бесплатно - для некоммерческого, естественно, использования.
</font>

Насколько я понял бесплатно можно взять в усеченном виде. А это все равно, что ничего....

А сама технология описана достаточно поверхностно, и на мой взгляд просто рекламма.

Не понравилось мне....

И опять не могу не поделиться интересной находкой на ниве филологии:

Словарь омонимичных словоформ:

http://irlras-cfrl.rema.ru:8100/homoforms/index.htm

внизу есть маленькая сылочка - "скопировать", которая ведет на зип:

http://irlras-cfrl.rema.ru:8100/homoforms/download/homodic.zip

вот так.......

эх, теперь бы определиться, как все это использовать......

Всего: 138