bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал icreator
Если всзять смысл слова "смысл", то в толковом словаре уже на второй итерации получаем зацикливание: "смысл - это типа знание", смотрим "знание это смысл". Вот и ая-улю. Значит вообще говоря человеческий язык не имеет смысла?

Это значит, что разработка лингвистических ресурсов (в том числе

толковых словарей) для описания мира (или отдельных предметных областей) дело не простое.

Если Вас это интересует - поищите по словам ontology, OntoWeb ...

Речь идет об интересных задачах, решение которых

позволит лучше понимать как собственно феномен информационного

поиска, так и получить оценки не конкретных систем (мне,

например, это совсем не интересно), но перспектив тех или иных

направлений в информационных системах.

На круглом столе по итогам РОМИП-2003, например обсуждались

задачи:

- нахождение лучшей страницы сайта по запросу;

- вопросно-ответные системы;

- нахождение геоинформации на сайте;

- оптимизация интерактивного поиска;

- автомат, играющий в кубок Яндекса

и т.д.

Это приглашение к участию.

Кроме того, если есть ХОРОШИЕ идеи,

например, проверить те или иные предположения,

важные для оптимизации - сейчас это пока можно обсуждать.

Как писал iseg


Как и
обещал, привожу верхушки списков ассоциациативных групп.

Илья, не могли бы Вы пояснить (напомнить ?), что означают Ваши записи

на примерах:

"15 потерянных групп " -- "области !~ областью-область-областей

песни !~ песнях-*-песня-*-песен"

"15 добавленных групп " -- "завод =~ заводям-заводь-заводные-заводная

"

Спасибо.

Как писал Vyacheslav Tikhonov

Я описал свои субъективные представления о данной проблеме. Но ведь
изначально правильная объемная модель здесь неизвестна, не так ли?

Так ровно это я и имел в виду когда говорил о "семантике".

Потому что в общей - у Вас "объемной" - модели ничего сказать нельзя.

Остается терпеливо заниматься вполне конретными вещами.

Как писал Vyacheslav Tikhonov

Что ж, я не виноват, Вы сами напросились :) Для неподготовленного читателя все это, скорее всего, будет восприниматься как бред, но что поделаешь, тема очень специфическая.
...

Я Вас понимаю (в реализации идейно мы близки).

Но мой вопрос был в другом.

То что Вы излагаете - уже математическая модель.

Правильно ли я понимаю, что результат применения этой

модели к тексту Вы и называете семантикой?

Но математических моделей можно построить много

(причем Ваша собственно с текстом связана слабо - она глобальна :) )

почему Вы считаете, что Ваша модель правильна?

В том плане - как КОНСТРУКТИВНО доказать полноту,

определить границы применимости и т.п.

Пытались ли Вы попытаться разобрать реальные тексты "на руках"

по Вашей модели?

Пробовали ли оценить какие потребуются ресурсы, как они должны быть устроены.

Важный конструктивный вопрос - можете ли Вы оценить как будет зависеть качество результатов анализа текста от качества

(неполноты и ошибок в применяемых ресурсах и правилах).

Почему я все это спрашиваю.

Российская традиция исследований по семантики сильно была связана с замечательной теорией Мельчука, для реализации требовался всего-то специальный словарь (ТКС).

К сожалению, много народа положили свои годы на это дело,

но результат не был достигнут.

Как Вы думаете - в чем проблема?

С наилучшими пожеланиями

Как писал Vyacheslav Tikhonov

Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.
Значит, что-то все же работает? :)

Мы никогда не употребляем слово "семантика".

Стараемся точно обозначать, что делаем.

Как писал Vyacheslav Tikhonov

Ах, кратенько... :)
Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.

Может Вы сможете подробнее описать?

Как писал Vyacheslav Tikhonov

Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.

Ну мы тоже с 1996 года применяем свою модель "лексической связности",

но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.

Причем про то, что ныне называется lexical cohesion (lexical chains),

я читал, например, у Иорданской в работах 60х годов (текстовая связность), вряд ли ошибусь, что эта штука была известна еще Аристотелю.

Простейщий, но далеко не единственный, пример лексических цепочек - повторение слова в тексте. А вот с более сложными примерами цепочек - большие проблемы. ВЫ какие имеете в виду?

А что такое, все-таки "семантика" в Вашем понимании?

Может Вы сможете кратенько описать?

Как писал Vyacheslav Tikhonov

И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Идея хорошая, но для качественной проверки придется прогнать большой объем данных.

И хотя тексты сейчас значительно чище чем раньше, но все равно

довольно много ошибок - даже при 0.1% от словоупотреблений для 100 Мбайт обработанных текстов - будет около 15 тысяч ошибок.

Плюс, допустим, столько же хороших, то есть достойных для включения в словарь, но неизвестных словарю слов (а по-видимому гораздо больше).

И огромная куча "нехороших" слов,

которые не включают обычно в словарь - фамилии,

названия мелких географических объектов, фирм, продуктов и т.п.

В результате, грубо оценивая = 100-200 тысяч строк, которые придется просмотреть ручками/глазками.

Хотя это та работа, которая делается при создании/развитии

морфословаря. Причем, ясно, однажды принятые решения могут использоваться далее. Именно за эту работу и берется "прибавочная стоимость".

Как писал Ken
Основная цель - сделать более менее эталонный "Зализняк", покрытие словаря - не очень интерисует.

Ну тогда это не ко мне. Чистку делали, но это не была критичная задача.

Кроме того, при чистке полезли проблемы, самой существенной мне кажется проблема краткой формы прилагательных ("русско-итальянский"), а также близких к ним наречий ("по-русски"). Плюс причастия с не- .

Как писал Ken
Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

Если Вас устроит - можно переслать (bvd@mail.ru) мне список сгенеренных словоформ, а я в ответ файл обработки.

Всего: 133