Developer

Рейтинг
2
Регистрация
03.04.2002

quote:
слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

Хорошо, а какие интервалы тогда разумно брать? Ведь есть несколько вариантов - в пределах предложения, абзаца, статьи...

Результат, видимо, будет тоже разный.

Вы, видимо, исследовали этот вопрос?

quote:
слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

Хорошо, а какие интервалы тогда разумно брать? Ведь есть несколько вариантов - в пределах предложения, абзаца, статьи...

Результат, видимо, будет тоже разный.

Вы, видимо, исследовали этот вопрос?

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.

А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?

Андрей,

а чем закончилась история с download?

Я уже полтора года безуспешно заглядываю периодически на твою страницу в ожидании исходников или хотя бы программы морфологического модуля. Думаю, я не оригинален в своем стремлении. Вот, за это время уже даже попробовал свою программу морфолгического анализа сваять... Правда мне одного месяца не хватило на доведение до ума этой задачи.

Originally posted by Keva:
для всех лексем, присутствующих в индексе, были порождены все
графически различные формы, каждая из которых, независимо от того,
встретилась ли она сама в тексте или нет, подвергалась вероятностной
лемматизации

Может быть, подскажешь, к кому можно обратиться за помощью в разработке блока лемматизации? (В идеале - получении исходников) Был бы очень признателен.

Сергей.

Андрей,

а чем закончилась история с download?

Я уже полтора года безуспешно заглядываю периодически на твою страницу в ожидании исходников или хотя бы программы морфологического модуля. Думаю, я не оригинален в своем стремлении. Вот, за это время уже даже попробовал свою программу морфолгического анализа сваять... Правда мне одного месяца не хватило на доведение до ума этой задачи.

Originally posted by Keva:
для всех лексем, присутствующих в индексе, были порождены все
графически различные формы, каждая из которых, независимо от того,
встретилась ли она сама в тексте или нет, подвергалась вероятностной
лемматизации

Может быть, подскажешь, к кому можно обратиться за помощью в разработке блока лемматизации? (В идеале - получении исходников) Был бы очень признателен.

Сергей.

К слову об объектных связях:

слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

Алгоритмы по нахождению словосочетаний применимы и для выявления объектных связей между понятиями; например, если мы рассмотрим текст как состоящий не из словоформ (или слов, при учете морфологии), а из устойчивых словосочетаний, вернее понятий, состоящих из одного, двух или больше словоформ. Но для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус. Без его использования я пока не вижу, как можно эффективно отделить поиск словосочетания от поиска объектной связи в случае простых слов (как в приведенном примере: "правительство - президент - путин - касьянов"). Заданием фильтра на поиск только связей между существительными? Или заданием поискового интервала между словами из предположения, что слова в словосочетании чаще всего стоят рядом?

С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows? Для меня остается загадкой как вы добились высокой производительности на миллионах записей. По видимому, вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД? Во всяком случае я принял такое решение.

И еще, Александр, вопрос - почему нельзя объектную связь назвать семантической, т.е. смысловой? Потому, что эта связь на самом деле статистическая или из других соображений?

Сергей.

К слову об объектных связях:

слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

Алгоритмы по нахождению словосочетаний применимы и для выявления объектных связей между понятиями; например, если мы рассмотрим текст как состоящий не из словоформ (или слов, при учете морфологии), а из устойчивых словосочетаний, вернее понятий, состоящих из одного, двух или больше словоформ. Но для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус. Без его использования я пока не вижу, как можно эффективно отделить поиск словосочетания от поиска объектной связи в случае простых слов (как в приведенном примере: "правительство - президент - путин - касьянов"). Заданием фильтра на поиск только связей между существительными? Или заданием поискового интервала между словами из предположения, что слова в словосочетании чаще всего стоят рядом?

С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows? Для меня остается загадкой как вы добились высокой производительности на миллионах записей. По видимому, вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД? Во всяком случае я принял такое решение.

И еще, Александр, вопрос - почему нельзя объектную связь назвать семантической, т.е. смысловой? Потому, что эта связь на самом деле статистическая или из других соображений?

Сергей.

Александр, возвращаясь к теме морфологии.

В какой-то момент я заметил, что учет морфологии незначительно влияет на алгоритм нахождения совместной встречаемости слов (вернее, словоформ). Т.е. для определенного круга исследовательских или технических задач можно ее не учитывать (например, выявлять семантически близкие слова без учета морфологии для построения индексных файлов; это частично оправдывается тем, что слова чаще всего сочетаются только в определенных формах друг с другом). Учет морфологии оказывается в этом случае всего лишь удобным интерфейсом для пользователя, мало влияющим на статистику совместной встречаемости слов.

С другой стороны, именно учет морфологии дает ту самую весомую статистику на малых частотах (сумма частот по всем формам существительных)

Моего опыта не хватает делать больших заключений, но возможно, вам приходилось сталкиваться с этим. Мой вопрос формулируется так: Насколько сильно влияние учета морфологии на информационный портрет?

Вернее влияние даже не на сам объект, а на выявление его окружения? Тестировали ли вы свою систему без морфологического модуля? Насколько устойчивой была картина?

Т.е. я могу предположить, что результат должен быть примерно тем же, что и с учетом морфологии, только найденные слова будут приведены не в основной форме. Так ли это?

Сергей.

Александр, возвращаясь к теме морфологии.

В какой-то момент я заметил, что учет морфологии незначительно влияет на алгоритм нахождения совместной встречаемости слов (вернее, словоформ). Т.е. для определенного круга исследовательских или технических задач можно ее не учитывать (например, выявлять семантически близкие слова без учета морфологии для построения индексных файлов; это частично оправдывается тем, что слова чаще всего сочетаются только в определенных формах друг с другом). Учет морфологии оказывается в этом случае всего лишь удобным интерфейсом для пользователя, мало влияющим на статистику совместной встречаемости слов.

С другой стороны, именно учет морфологии дает ту самую весомую статистику на малых частотах (сумма частот по всем формам существительных)

Моего опыта не хватает делать больших заключений, но возможно, вам приходилось сталкиваться с этим. Мой вопрос формулируется так: Насколько сильно влияние учета морфологии на информационный портрет?

Вернее влияние даже не на сам объект, а на выявление его окружения? Тестировали ли вы свою систему без морфологического модуля? Насколько устойчивой была картина?

Т.е. я могу предположить, что результат должен быть примерно тем же, что и с учетом морфологии, только найденные слова будут приведены не в основной форме. Так ли это?

Сергей.

123
Всего: 28