Судя по молчанию пора закрывать тему.
Александр, спасибо за подсказку.
Я кое-какие формулы вывел на основании предложенного принципа и на выходных реализовал. Результат хороший даже без учета морфологии, к тому же получился быстрый алгоритм расчета.
Тестирование на полмегабайтном тексте: Коэффициенты устойчивых объектных связей "всплывают" наверх. Правда при этом коэффициенты связи между словами, имеющими большой шум (типа союзов и предлогов) тоже оказывается достаточно большим, но с ростом массива они неизбежно будут уменьшаться примерно как 1/n.
Главное, формулы позволяют применить свойство аддитивности текста, это означает, что для группы текстов можно применить простую расчетную формулу суммарного коэффициента связи между двумя словами, что решает много проблем при пополнении массива текстов.
Так что если кто еще думает на эту же тему, берите на вооружение обсуждавшийся в теме подход, формулы очень просты в выводе.
Меня можно застать в частном порядке по
developer@s-mail.com
либо
s_ilyin@mail.ru
Пишите, обсудим.
Сергей.
Основная цель проекта - создать инструмент, позволяющий пользователю находить нужную информацию в библиотеке тематически связанных текстов. (Нечто подобное Analyst, только бесплатное . Ну, и конечно, с некоторыми отличиями в функциональности. В частности, вывод результата запроса из программы в Word и др. ...
Рабочей команды у меня нет, т.к. найти энтузиастов - единомышленников непросто, да и сотрудничать в off-line трудно, поэтому делаю все во внерабочее время самостоятельно.
Главное, меня увлекает сам творческий процесс работы со словом, с большими объемами связанной информации, это постоянно двигает вперед.
Сам проект родился в моей голове лет 7 назад и постепенно развивался по мере роста знаний от уровня досовского приложения на TurboPascal'е до обычного Windows приложения на VС++ с планируемым выходом в Интернет в самом ближайшем будущем, как только будут отработаны детали реализации.
Что еще о проекте? Открыт к сотрудничеству.
Спасибо всем за поддержку начатой темы.
Хотелось бы просветиться у знающих людей,
не знает ли кто, где в Интернете можно достать исходники классов (С++ или др.) либо работающие модули для морфологического разбора и обратной задачи лемматизации?
Я дважды за последние полтора года делал попытку найти, но все, что находил, либо недоработано (на уровне студенческого диплома), либо с ограниченной demo функциональностью. Вроде Андрей (keva) грозился выложить исходники, но до сих пор не решился на этот самоотверженный шаг.
Помогите кто чем может (можно частным образом). Мой проект некоммерческий.
Александр,
Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи... Можно, конечно, вводить коэффициенты удаленности слова, не порекомендуете ли что-нибудь из своего опыта?
Сергей
Хорошо, Вячеслав, мне это понятно:
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?