viellsky

Рейтинг
17
Регистрация
19.03.2004
maximumx:
Смешно это немного слышать.
У нас сейчас сумма в десяток раз больше и о человеке известно всё, только вот взять с него нечего.

Это случаем не та самая история про СЕ комплекс и гавалекс? :)

Так я не понял, у тебя сама ПОИСКОВАЯ система есть? Или только синтаксический анализатор?

А как ты собираешься строить смысловые сети?

А что такое знания о мире? Очень уж непонятно, прямо Машкин Эдельвейс Захарович получается со своим думателем внутре...

Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:

Каким образом использовать результаты синтаксического анализа в поисковой системе?

Как писал icreator

А по каким критериям тогда оценивается работа анализатора? (кроме скорости)
У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(
Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.

Как бы это глупо не звучало, но критерии пока что чисто субъективные.

Вообще, сейчас работы по первой версии уже заморожены, разрабатывается новый анализатор с более навороченной физической моделью. Возможно при оценки эффективности работы будут (опять же субъективно) оцениваться получающиеся предикаты (подл-сказуемое-дополнение/обстоятельство). Также еще дополнительные аспекты, например правильность определения типа обстоятельства.

Как писал icreator


Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.

Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.

У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.

Все таки как ни крути, но Пролог - это еще один уровень абстракции, причем уровень абстракции, затрагивающий именно вычислительный процесс, а не представление информации. Поэтому он заведомо уступает по скорости работы коду, созданному с помощью С++.

Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.

А статистика есть только по скорости работы.

Про морфологию - Зализняк(ака Железняк) в оцифрованном виде действительно кривой, не в пример бумажному. Над словарем у нас работают отдельно лингвисты. Также помимо морфологии отдельных слов, потихоньку появляется морфология словосочетаний.

И вот еще что: за то что я характеристики слов и словосочетаний называю морфологическими, лингвисты меня нещадно пинают, так что я потихоньку приучаю себя называть их статическими (поскольку лежат они у них статично в базе :) )

Как писал icreator
для viellsky:
киньте, пожалуйста примеры разбираемы предложений сюда, так же как сделал я.
Вы сравнивали свой анализатор тектса с анализатором от АОТ?

Примеров у нас как таковых нет. Примеры мы используем только на этапе разработки и совершенствования анализатора. А вообще, анализатор работает в составе системы, так что вынужден разбирать все, что ему дадут.

Посмотрел АОТ - фактически принципы анализа у них и у нас похожи.

На данный момент в анализе у нас вовлечены три модуля - лексический (он же графоматический у АОТ), морфологический и собственно синтаксический.

По поводу сравнения... Видите ли, непонятно как сравнивать. Я уже говорил и повторю, что качественные показатели анализатора нужны такие, что будут удовлетворять целям поисковой системы в целом.

Ведь целью является разработать не анализатор, а поисковую сиистему. Только не подумайте, что этими словами я прикрываю убогость нашего анализатора. Но, с другой стороны я не стану говорить, что у нас он супер и парсит почти все - это тоже неверно :).

И все же, icreator, что вы думаете именно о поиске и как вы хотите использовать результаты синтаксического анализа при работе поисковой системы?

icreator, кстати, по поводу скорости разбора. Прологу и текстовым файлам правил сложно состязаться с С++ и морфологическим словарем с хэш-таблицами.

Как писал icreator

ну, да там еще нужно уйму знаний напихать чтобы она чего-то осмысленное начала выдавать.


а по подробней? демка есть? Сложность ЕЯ тескта нормальная?

Эээ... по поводу знаний - это стеб? В машину знаний не впихнешь. По крайней мере на данный момент :)

Демки нет. Сложность любая, только, сами понимаете, точность ну очень уж сильно зависит от сложности.

Собственно, как я уже сказал, главное ведь не разбор. Точнее, для поисковика синтаксический разбор не есть самоцель. И желаемая глубина и точность его определяются: алгоритмом поиска, ограниченностью системных ресурсов, ну и конечно же IQ(ну или чем то в этом роде) людей его создающих.

И все таки, что есть сказать у завсегдатаев сей темы?

Как писал spark
viellsky,
извините, это вы писали?

> Затем запустите snow_fight.sfx.part1.exe и после разОрхивации появитЬся snow_fight.exe.

если таких текстов разбор, то сложности возникают неимоверные :)

Ценю оказанное внимание, хотя, впрочем, зачем по нику искать обо мне информацию? Спросите, я сам расскажу :). Ну а писал собственно не я...

Я вот только понять не могу. Почему весь вопрос сводится к правильному разбору предложения?

Ну распарсит он все эти предложения, а дальше то что? Проблема корректного поиска здесь опять же выходит на первый план. Простого поиска одинаковых фрагментов дерева разбора запроса и текста совершенно недостаточно.

P.S. данной проблематикой занимаюсь профессионально. Ну и еще немного чисел - непосредственно синтаксический анализ текста (он же построение дерева зависимостей) 1 мегабайта русскоязычного текста у нас происходит за 5-15 секунд.