Используйте результаты синтаксического анализа при работе поисковой системы - Поисковые технологии

36

icreator

22 марта 2004, 08:38

#51

Как писал viellsky
icreator, кстати, по поводу скорости разбора. Прологу и текстовым файлам правил сложно состязаться с С++ и морфологическим словарем с хэш-таблицами.

Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.

Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.

У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.

С уважением Ермолаев Дмитрий

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

17

viellsky

22 марта 2004, 09:01

#52

Как писал icreator
для viellsky:
киньте, пожалуйста примеры разбираемы предложений сюда, так же как сделал я.
Вы сравнивали свой анализатор тектса с анализатором от АОТ?

Примеров у нас как таковых нет. Примеры мы используем только на этапе разработки и совершенствования анализатора. А вообще, анализатор работает в составе системы, так что вынужден разбирать все, что ему дадут.

Посмотрел АОТ - фактически принципы анализа у них и у нас похожи.

На данный момент в анализе у нас вовлечены три модуля - лексический (он же графоматический у АОТ), морфологический и собственно синтаксический.

По поводу сравнения... Видите ли, непонятно как сравнивать. Я уже говорил и повторю, что качественные показатели анализатора нужны такие, что будут удовлетворять целям поисковой системы в целом.

Ведь целью является разработать не анализатор, а поисковую сиистему. Только не подумайте, что этими словами я прикрываю убогость нашего анализатора. Но, с другой стороны я не стану говорить, что у нас он супер и парсит почти все - это тоже неверно :).

И все же, icreator, что вы думаете именно о поиске и как вы хотите использовать результаты синтаксического анализа при работе поисковой системы?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

17

viellsky

22 марта 2004, 09:14

#53

Как писал icreator

Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.

Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.

У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.

Все таки как ни крути, но Пролог - это еще один уровень абстракции, причем уровень абстракции, затрагивающий именно вычислительный процесс, а не представление информации. Поэтому он заведомо уступает по скорости работы коду, созданному с помощью С++.

Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.

А статистика есть только по скорости работы.

Про морфологию - Зализняк(ака Железняк) в оцифрованном виде действительно кривой, не в пример бумажному. Над словарем у нас работают отдельно лингвисты. Также помимо морфологии отдельных слов, потихоньку появляется морфология словосочетаний.

И вот еще что: за то что я характеристики слов и словосочетаний называю морфологическими, лингвисты меня нещадно пинают, так что я потихоньку приучаю себя называть их статическими (поскольку лежат они у них статично в базе :) )

Новая логика работы операторов Джон Мюллер рассказал о Добавьте налоговую информацию

I

36

icreator

22 марта 2004, 11:37

#54

Как писал viellsky

Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.
А статистика есть только по скорости работы.

А по каким критериям тогда оценивается работа анализатора? (кроме скорости)

У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(

Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

17

viellsky

22 марта 2004, 12:08

#55

Как писал icreator

А по каким критериям тогда оценивается работа анализатора? (кроме скорости)
У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(
Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.

Как бы это глупо не звучало, но критерии пока что чисто субъективные.

Вообще, сейчас работы по первой версии уже заморожены, разрабатывается новый анализатор с более навороченной физической моделью. Возможно при оценки эффективности работы будут (опять же субъективно) оцениваться получающиеся предикаты (подл-сказуемое-дополнение/обстоятельство). Также еще дополнительные аспекты, например правильность определения типа обстоятельства.

«Ашманов и партнеры» о Google рассказал, как обратная Google добавил в формулу

I

36

icreator

22 марта 2004, 17:13

#56

добавил новые статсы по семантическому анализатору:

www.icreator.ru/isearch/progress.htm

V

17

viellsky

23 марта 2004, 06:46

#57

Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:

Каким образом использовать результаты синтаксического анализа в поисковой системе?

I

36

icreator

23 марта 2004, 07:17

#58

делаем свой собственый поиск по созданным смысловым сетям. + подключаем знания о мире.

V

17

viellsky

23 марта 2004, 08:56

#59

Так я не понял, у тебя сама ПОИСКОВАЯ система есть? Или только синтаксический анализатор?

А как ты собираешься строить смысловые сети?

А что такое знания о мире? Очень уж непонятно, прямо Машкин Эдельвейс Захарович получается со своим думателем внутре...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

23 марта 2004, 10:25

#60

Как писал viellsky
Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:

Каким образом использовать результаты синтаксического анализа в поисковой системе?

По моему мнению, в общей постановке - никак.

Есть мнения - см. например, RCO, что, мол, подлежащее с большим весом,

а обстоятельства и дополнения с вдвое меньшим.

Это может работать, и то возможно?, только для очень коротких текстов.

Например, для правовых актов "Правительство установило размер ставки налога на пользование чего-нибудь..." правительство в таких документах не релевантно,

а важна имено ставка налога, налог на пользование чего-нибудь и т.п.

Кроме того, не в коротком тексте то , что было подлежащим побывает и дополнением и т.п, и наоборот. Поэтому это не будет отличаться от обычной частотности.

Задачи поиска, где полезен синтаксис, надо еще поискать и правильно поставить.

Вывод на Москоммерцбанк Не платил налоги к Яндекс кобласит

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

осмысленный поиск - новые вести