Developer

Рейтинг
2
Регистрация
03.04.2002

Судя по молчанию пора закрывать тему.

Александр, спасибо за подсказку.

Я кое-какие формулы вывел на основании предложенного принципа и на выходных реализовал. Результат хороший даже без учета морфологии, к тому же получился быстрый алгоритм расчета.

Тестирование на полмегабайтном тексте: Коэффициенты устойчивых объектных связей "всплывают" наверх. Правда при этом коэффициенты связи между словами, имеющими большой шум (типа союзов и предлогов) тоже оказывается достаточно большим, но с ростом массива они неизбежно будут уменьшаться примерно как 1/n.

Главное, формулы позволяют применить свойство аддитивности текста, это означает, что для группы текстов можно применить простую расчетную формулу суммарного коэффициента связи между двумя словами, что решает много проблем при пополнении массива текстов.

Так что если кто еще думает на эту же тему, берите на вооружение обсуждавшийся в теме подход, формулы очень просты в выводе.

Меня можно застать в частном порядке по

developer@s-mail.com

либо

s_ilyin@mail.ru

Пишите, обсудим.

Сергей.

Судя по молчанию пора закрывать тему.

Александр, спасибо за подсказку.

Я кое-какие формулы вывел на основании предложенного принципа и на выходных реализовал. Результат хороший даже без учета морфологии, к тому же получился быстрый алгоритм расчета.

Тестирование на полмегабайтном тексте: Коэффициенты устойчивых объектных связей "всплывают" наверх. Правда при этом коэффициенты связи между словами, имеющими большой шум (типа союзов и предлогов) тоже оказывается достаточно большим, но с ростом массива они неизбежно будут уменьшаться примерно как 1/n.

Главное, формулы позволяют применить свойство аддитивности текста, это означает, что для группы текстов можно применить простую расчетную формулу суммарного коэффициента связи между двумя словами, что решает много проблем при пополнении массива текстов.

Так что если кто еще думает на эту же тему, берите на вооружение обсуждавшийся в теме подход, формулы очень просты в выводе.

Меня можно застать в частном порядке по

developer@s-mail.com

либо

s_ilyin@mail.ru

Пишите, обсудим.

Сергей.

Основная цель проекта - создать инструмент, позволяющий пользователю находить нужную информацию в библиотеке тематически связанных текстов. (Нечто подобное Analyst, только бесплатное . Ну, и конечно, с некоторыми отличиями в функциональности. В частности, вывод результата запроса из программы в Word и др. ...

Рабочей команды у меня нет, т.к. найти энтузиастов - единомышленников непросто, да и сотрудничать в off-line трудно, поэтому делаю все во внерабочее время самостоятельно.

Главное, меня увлекает сам творческий процесс работы со словом, с большими объемами связанной информации, это постоянно двигает вперед.

Сам проект родился в моей голове лет 7 назад и постепенно развивался по мере роста знаний от уровня досовского приложения на TurboPascal'е до обычного Windows приложения на VС++ с планируемым выходом в Интернет в самом ближайшем будущем, как только будут отработаны детали реализации.

Что еще о проекте? Открыт к сотрудничеству.

Основная цель проекта - создать инструмент, позволяющий пользователю находить нужную информацию в библиотеке тематически связанных текстов. (Нечто подобное Analyst, только бесплатное . Ну, и конечно, с некоторыми отличиями в функциональности. В частности, вывод результата запроса из программы в Word и др. ...

Рабочей команды у меня нет, т.к. найти энтузиастов - единомышленников непросто, да и сотрудничать в off-line трудно, поэтому делаю все во внерабочее время самостоятельно.

Главное, меня увлекает сам творческий процесс работы со словом, с большими объемами связанной информации, это постоянно двигает вперед.

Сам проект родился в моей голове лет 7 назад и постепенно развивался по мере роста знаний от уровня досовского приложения на TurboPascal'е до обычного Windows приложения на VС++ с планируемым выходом в Интернет в самом ближайшем будущем, как только будут отработаны детали реализации.

Что еще о проекте? Открыт к сотрудничеству.

Спасибо всем за поддержку начатой темы.

Хотелось бы просветиться у знающих людей,

не знает ли кто, где в Интернете можно достать исходники классов (С++ или др.) либо работающие модули для морфологического разбора и обратной задачи лемматизации?

Я дважды за последние полтора года делал попытку найти, но все, что находил, либо недоработано (на уровне студенческого диплома), либо с ограниченной demo функциональностью. Вроде Андрей (keva) грозился выложить исходники, но до сих пор не решился на этот самоотверженный шаг.

Помогите кто чем может (можно частным образом). Мой проект некоммерческий.

Сергей.

Спасибо всем за поддержку начатой темы.

Хотелось бы просветиться у знающих людей,

не знает ли кто, где в Интернете можно достать исходники классов (С++ или др.) либо работающие модули для морфологического разбора и обратной задачи лемматизации?

Я дважды за последние полтора года делал попытку найти, но все, что находил, либо недоработано (на уровне студенческого диплома), либо с ограниченной demo функциональностью. Вроде Андрей (keva) грозился выложить исходники, но до сих пор не решился на этот самоотверженный шаг.

Помогите кто чем может (можно частным образом). Мой проект некоммерческий.

Сергей.

Александр,

Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи... Можно, конечно, вводить коэффициенты удаленности слова, не порекомендуете ли что-нибудь из своего опыта?

Сергей

Александр,

Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи... Можно, конечно, вводить коэффициенты удаленности слова, не порекомендуете ли что-нибудь из своего опыта?

Сергей

Хорошо, Вячеслав, мне это понятно:

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Хорошо, Вячеслав, мне это понятно:

Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы

Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

12 3
Всего: 28