!Иван FXS

!Иван FXS
Рейтинг
119
Регистрация
16.11.2001

Трафика из России и Китая там ВООБЩЕ нет! Больше половины трафика - из штатов (на каждой странице - иконка GeoVisitors, под ней - география трафика).

Еще раз: ПАРАЛЛЕЛЬНО работают AdSense и Umax; у первого получаю плату за клик - в 10 раз выше!

Тематика - универсальная: это все тот же семантический каталог. Если интересно - ссылка в подписи.

Дык, мне понятна статья, и понятно, как она соотносится с ночной дискуссией, а не то, что Вам в ней не понятно.

Более того, не удивлюсь, если вообще не пойму, что Вы - об этой статье - спрашиваете. ;-)

"Представление заменяет текст основы на сответствующий ему бит из хэш-таблицы большого размера" - это я понимаю так, что вводится хэш-функция, отображающая ЛЮБУЮ последовательность букв в множество целых чисел, скажем, от 1 до 1 000 000 000. А потом берется битовый массив (размером в эти 1 000 000 000 бит) и "прожигается" единичками в тех точках, которые соответсвуют буквосочетаниями, ПРИЗНАВАЕМЫМИ нами "правильными" основами слов.

Там, правда, еще написано, что в эту же матрицу напиханы "плотно идущие" коды слов (основ). Тоже понятно, но конструкция становится менее красивой.

_______________

Я вот тоже работаю со словарем, когда АСС (Ассоциативно-семантичекую Сеть) строю. Но - поигрался немного со всякими хэшами и вернулся к простейшей таблице, проиндексированой. То бишь - бинарные деревья там, причем не самописные, а предустановленные Биллом Гейтсом в его MS Access, на котором, собственно, и ваяю. Дешево и сердито; усилия расходуются не на изобретение велосипедов, а на исследование терра инкогнито.

itman:
PS: кстати, вот http://company.yandex.ru/articles/article5.html статья Ильи

- хорошая статья! И очень даже понятная.

Вот как там написано, так и надо делать!

А если отказаться от идеи, что коды должны следовать подряд, то вообще лепота получается: на каждое кодируемое слово требуется только [один бит]*[фактор разреженности хэш-таблицы]

Другое дело, что ОБРАТНАЯ задача (перевод хэш-кода в слово) - компактно, наверное, не реализуема ...

______________

Малехо помедитировав: точнее сказать, - так как там написано, вполне можно делать ... понятны плюсы, понятны минусы.

itman, дело ведь не в средней длине слов, а в средней длине той суффиксной их части, которая меняется при переходе от слова к слову в упорядоченом по алфавиту словаре.

itman:
... на тему компактного представления словаря...

... понятна одна банальная вещь: хранить нужно инкрементально, то есть6

- если в словаре после "дом" идет "дон", то при переходе от первого ко второму нужно хранить только "н";

- а если после "ключик" идет "ключом", то при переходе от первого ко второму нужно хранить только "ом";

- а если после "ключа" идет "ключик", то при переходе от первого ко второму нужно хранить "ик" и - в какой-то нотации - указание на то, что одна буква заменяется на две.

Морфологический разбор слова - на приставку, корень и окончание - я обсуждать не берусь.

ЗодчийТеней:
... идентификатор базового слова, и к нему идентификаторы дополнений к оному которые ...

- ну так Вы же - на ходу - задачу усложняете! Чем сложнее задача, те сложнее написать для нее компактный алгоритм!

(Под алгоритмом я понимаю тройку: непосредственно алгоритм + структура данных + сами данные (словарь).)

itman:
Задача стоит хотя бы просто этот весь массив словоформ закодировать. Ну и естественно иметь возможность чекать если словоформа в словаре.

- если у нас есть список словоформ - где угодно: хоть в голове, хоть на бумаге, хоть в файле - и мы говорим, что "а" имеет номер 1, то ... вот они, собственно, уже и закодированы все ... однозначно.

Задача, наверное, состоит в том, чтобы написать компактный АЛГОРИТМ, который бы производил ПРЕОБРАЗОВАНИЕ одного в другое ... Чего, кстати, одного - во что другое: слова - в его номер, или номера - в его слово?

ЗодчийТеней:
в точьку, с моей точьки зрения, можете к єтому что-то добавить?

- что тут добавишь ... ИМХО, это - самая сложная из перечисленных мною (навскидку) задач.

То есть у Вас обязательно должно быть слово с кодом 1, слово с кодом 2 и т.д.?

А задачу перехода от словоформы к "базовому" слову - этот же словарь должен обслуживать, видимо?

itman:
А что Вы понимаете под н-граммным кодированием?

- нечто а-ля Хаффман ... с деталями, зависящими от требуемого ФУНКЦИОНАЛА словаря.

Какой, кстати, функционал-то обсуждаем? Спеллчекинг, например, или пораждение неупоряченного полного массива словоформ, или вычисление уникального порядкового номера (кода, идента) слова в упорядоченном (по алфавиту) полном списке - то ли слов, то ли словоформ?

Это же все разные задачи! И под каждую - оптимален свой метод хранения "словаря".

К вопросу о "целесообразности паковки": хранение словаря в виде список основ + правила пораждения словоформ - это есть, несомненно, паковка словаря (словоформ).

Всего: 644