Размер словаря

I
На сайте с 26.05.2001
Offline
64
#71

ой, откуда-то появились номера слов, я что-то пропустил. нет, лично я имел в виду следующее. анализатор слов а-ля программка Кевы на linguist.nm.ru. то есть если есть набор словооснов, то нужно его так компактно представить в памяти, чтобы по этому компактному представлению и произвольному входному слову определять может ли это слово быть сгенерировано на основе данных словооснов. как правило приятным побочным эффектом такой проверки может (хотя это не обязательно) могут являться грамматические харак-ки слова: часть речи, род, падеж число, итд.... Но в базовом варианте меня устроит и спеллчекер с компактным представлением словаря. Вот, надеюсь, что понятно изложил свои мысли!

!Иван FXS:
- если у нас есть список словоформ - где угодно: хоть в голове, хоть на бумаге, хоть в файле - и мы говорим, что "а" имеет номер 1, то ... вот они, собственно, уже и закодированы все ... однозначно.

Задача, наверное, состоит в том, чтобы написать компактный АЛГОРИТМ, который бы производил ПРЕОБРАЗОВАНИЕ одного в другое ... Чего, кстати, одного - во что другое: слова - в его номер, или номера - в его слово?
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#72
Artisan:
Выспитесь а потом внимательно прочитайте эту тему, ...

это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".
I
На сайте с 26.05.2001
Offline
64
#73

Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.

ЗодчийТеней:
это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?

Почему же, я собираюсь заняться. Причем даже не одним, но узкоспецилизированными. И при наличии основной работы. Дык спать семь часов в день все равно надо, башка иначе перестанет варить. И таски, которые на свежую голову занимают час времени легко могут потребовать месяца усилий.

ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#74
itman:
чтобы по этому компактному представлению и произвольному входному слову определять может ли это слово быть сгенерировано на основе данных словооснов. как правило приятным побочным эффектом такой проверки может (хотя это не обязательно) могут являться грамматические харак-ки слова: часть речи, род, падеж число, итд....

а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?

I
На сайте с 26.05.2001
Offline
64
#75

и морфология есть готовая. у Кевы можно купить. на macrocosm.narod.ru даже бесплатно скачать под винды и линукс.

ЗодчийТеней:
а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?

есть два варианта

1) хранить, тогда прощай компактное представление. точнее не прощай, но это доп расходны на хранение.

2) генерировать из слова уникальные id. но я не знаю алгоритма, который гарантировал бы уникальность такого id.

ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#76
itman:
Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.

насчет индекса согласен, но насчет компактности словаря не согласен, при работе с озу вы всегда получите большую скорость, поэтому загрузив все исходные данные в озу вы получите неплохой прирост производительности

itman:
Дык спать семь часов в день все равно надо, башка иначе перестанет варить.

всегда есть вариации, у каждого свои нюансы

Artisan
На сайте с 04.03.2005
Offline
353
#77
itman:
есть два варианта

Оба утверждения неправильные, ...

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#78
Artisan:
Оба утверждения неправильные, ...

вы опять говорите "а" но не говорите "б", думаю что из вас вышелбы неплохой адвокат

I
На сайте с 26.05.2001
Offline
64
#79
Artisan:
Оба утверждения неправильные, ...

ок тогда опровергните их.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#80
itman:
... на тему компактного представления словаря...

... понятна одна банальная вещь: хранить нужно инкрементально, то есть6

- если в словаре после "дом" идет "дон", то при переходе от первого ко второму нужно хранить только "н";

- а если после "ключик" идет "ключом", то при переходе от первого ко второму нужно хранить только "ом";

- а если после "ключа" идет "ключик", то при переходе от первого ко второму нужно хранить "ик" и - в какой-то нотации - указание на то, что одна буква заменяется на две.

Морфологический разбор слова - на приставку, корень и окончание - я обсуждать не берусь.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий