- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
icreator, кстати, по поводу скорости разбора. Прологу и текстовым файлам правил сложно состязаться с С++ и морфологическим словарем с хэш-таблицами.
Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.
Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.
У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.
для viellsky:
киньте, пожалуйста примеры разбираемы предложений сюда, так же как сделал я.
Вы сравнивали свой анализатор тектса с анализатором от АОТ?
Примеров у нас как таковых нет. Примеры мы используем только на этапе разработки и совершенствования анализатора. А вообще, анализатор работает в составе системы, так что вынужден разбирать все, что ему дадут.
Посмотрел АОТ - фактически принципы анализа у них и у нас похожи.
На данный момент в анализе у нас вовлечены три модуля - лексический (он же графоматический у АОТ), морфологический и собственно синтаксический.
По поводу сравнения... Видите ли, непонятно как сравнивать. Я уже говорил и повторю, что качественные показатели анализатора нужны такие, что будут удовлетворять целям поисковой системы в целом.
Ведь целью является разработать не анализатор, а поисковую сиистему. Только не подумайте, что этими словами я прикрываю убогость нашего анализатора. Но, с другой стороны я не стану говорить, что у нас он супер и парсит почти все - это тоже неверно :).
И все же, icreator, что вы думаете именно о поиске и как вы хотите использовать результаты синтаксического анализа при работе поисковой системы?
Кстати Пролог у меня создает .ехе и вдобавок правила хранятся во внутренней базе фактов. Это и не текст, но и не переменные. С чем сравнить даже не знаю. Но скорость конечно ниже чем в хэш-таблицах.
Вот возьмите УГОЛОВНЫЙ КОДЕКС РОССИЙСКОЙ ФЕДЕРАЦИИ и попробуйте его распарсерить. Какая статистика у Вас получится? Файл могу качнуть через е-почту - там 60кБ запаковынных.
У моей проги вдобавок еще морфологический разбор кривой - по Железняку и с ошибками и нет инфо по словообразованию. Так-что с нормальной морфологией я ожидаю еще +10% к количеству связывания.
Все таки как ни крути, но Пролог - это еще один уровень абстракции, причем уровень абстракции, затрагивающий именно вычислительный процесс, а не представление информации. Поэтому он заведомо уступает по скорости работы коду, созданному с помощью С++.
Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.
А статистика есть только по скорости работы.
Про морфологию - Зализняк(ака Железняк) в оцифрованном виде действительно кривой, не в пример бумажному. Над словарем у нас работают отдельно лингвисты. Также помимо морфологии отдельных слов, потихоньку появляется морфология словосочетаний.
И вот еще что: за то что я характеристики слов и словосочетаний называю морфологическими, лингвисты меня нещадно пинают, так что я потихоньку приучаю себя называть их статическими (поскольку лежат они у них статично в базе :) )
Хм... вот со статистикой непонятно, у меня нет такого понятия, как процент осмысления. В дерево в конечном итоге связывается все что есть в предложении, только вероятность правильности связывания разная.
А статистика есть только по скорости работы.
А по каким критериям тогда оценивается работа анализатора? (кроме скорости)
У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(
Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.
А по каким критериям тогда оценивается работа анализатора? (кроме скорости)
У меня первые версии были такие что либо они связывали все слова, либо несвязывали и ругались долго. Но вот реальные предложения из того же УК РФ наверно бы только 3% связали полностью, а на остальные бы ругались :(
Текущей версии побоку, может там в предложении ошибка, так она свяжет чего сможет и тоже скорее всего с ошибкой :) Смысл-то уже утерян первоначально.
Как бы это глупо не звучало, но критерии пока что чисто субъективные.
Вообще, сейчас работы по первой версии уже заморожены, разрабатывается новый анализатор с более навороченной физической моделью. Возможно при оценки эффективности работы будут (опять же субъективно) оцениваться получающиеся предикаты (подл-сказуемое-дополнение/обстоятельство). Также еще дополнительные аспекты, например правильность определения типа обстоятельства.
добавил новые статсы по семантическому анализатору:
www.icreator.ru/isearch/progress.htm
Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:
Каким образом использовать результаты синтаксического анализа в поисковой системе?
делаем свой собственый поиск по созданным смысловым сетям. + подключаем знания о мире.
Так я не понял, у тебя сама ПОИСКОВАЯ система есть? Или только синтаксический анализатор?
А как ты собираешься строить смысловые сети?
А что такое знания о мире? Очень уж непонятно, прямо Машкин Эдельвейс Захарович получается со своим думателем внутре...
Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:
Каким образом использовать результаты синтаксического анализа в поисковой системе?
По моему мнению, в общей постановке - никак.
Есть мнения - см. например, RCO, что, мол, подлежащее с большим весом,
а обстоятельства и дополнения с вдвое меньшим.
Это может работать, и то возможно?, только для очень коротких текстов.
Например, для правовых актов "Правительство установило размер ставки налога на пользование чего-нибудь..." правительство в таких документах не релевантно,
а важна имено ставка налога, налог на пользование чего-нибудь и т.п.
Кроме того, не в коротком тексте то , что было подлежащим побывает и дополнением и т.п, и наоборот. Поэтому это не будет отличаться от обычной частотности.
Задачи поиска, где полезен синтаксис, надо еще поискать и правильно поставить.