Хорошо, а какие интервалы тогда разумно брать? Ведь есть несколько вариантов - в пределах предложения, абзаца, статьи...
Результат, видимо, будет тоже разный.
Вы, видимо, исследовали этот вопрос?
А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?
Андрей,
а чем закончилась история с download?
Я уже полтора года безуспешно заглядываю периодически на твою страницу в ожидании исходников или хотя бы программы морфологического модуля. Думаю, я не оригинален в своем стремлении. Вот, за это время уже даже попробовал свою программу морфолгического анализа сваять... Правда мне одного месяца не хватило на доведение до ума этой задачи.
Может быть, подскажешь, к кому можно обратиться за помощью в разработке блока лемматизации? (В идеале - получении исходников) Был бы очень признателен.
Сергей.
К слову об объектных связях:
Алгоритмы по нахождению словосочетаний применимы и для выявления объектных связей между понятиями; например, если мы рассмотрим текст как состоящий не из словоформ (или слов, при учете морфологии), а из устойчивых словосочетаний, вернее понятий, состоящих из одного, двух или больше словоформ. Но для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус. Без его использования я пока не вижу, как можно эффективно отделить поиск словосочетания от поиска объектной связи в случае простых слов (как в приведенном примере: "правительство - президент - путин - касьянов"). Заданием фильтра на поиск только связей между существительными? Или заданием поискового интервала между словами из предположения, что слова в словосочетании чаще всего стоят рядом?
С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows? Для меня остается загадкой как вы добились высокой производительности на миллионах записей. По видимому, вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД? Во всяком случае я принял такое решение.
И еще, Александр, вопрос - почему нельзя объектную связь назвать семантической, т.е. смысловой? Потому, что эта связь на самом деле статистическая или из других соображений?
Александр, возвращаясь к теме морфологии.
В какой-то момент я заметил, что учет морфологии незначительно влияет на алгоритм нахождения совместной встречаемости слов (вернее, словоформ). Т.е. для определенного круга исследовательских или технических задач можно ее не учитывать (например, выявлять семантически близкие слова без учета морфологии для построения индексных файлов; это частично оправдывается тем, что слова чаще всего сочетаются только в определенных формах друг с другом). Учет морфологии оказывается в этом случае всего лишь удобным интерфейсом для пользователя, мало влияющим на статистику совместной встречаемости слов.
С другой стороны, именно учет морфологии дает ту самую весомую статистику на малых частотах (сумма частот по всем формам существительных)
Моего опыта не хватает делать больших заключений, но возможно, вам приходилось сталкиваться с этим. Мой вопрос формулируется так: Насколько сильно влияние учета морфологии на информационный портрет?
Вернее влияние даже не на сам объект, а на выявление его окружения? Тестировали ли вы свою систему без морфологического модуля? Насколько устойчивой была картина?
Т.е. я могу предположить, что результат должен быть примерно тем же, что и с учетом морфологии, только найденные слова будут приведены не в основной форме. Так ли это?