Это значит, что разработка лингвистических ресурсов (в том числе
толковых словарей) для описания мира (или отдельных предметных областей) дело не простое.
Если Вас это интересует - поищите по словам ontology, OntoWeb ...
Речь идет об интересных задачах, решение которых
позволит лучше понимать как собственно феномен информационного
поиска, так и получить оценки не конкретных систем (мне,
например, это совсем не интересно), но перспектив тех или иных
направлений в информационных системах.
На круглом столе по итогам РОМИП-2003, например обсуждались
задачи:
- нахождение лучшей страницы сайта по запросу;
- вопросно-ответные системы;
- нахождение геоинформации на сайте;
- оптимизация интерактивного поиска;
- автомат, играющий в кубок Яндекса
и т.д.
Это приглашение к участию.
Кроме того, если есть ХОРОШИЕ идеи,
например, проверить те или иные предположения,
важные для оптимизации - сейчас это пока можно обсуждать.
Илья, не могли бы Вы пояснить (напомнить ?), что означают Ваши записи
на примерах:
"15 потерянных групп " -- "области !~ областью-область-областей
песни !~ песнях-*-песня-*-песен"
"15 добавленных групп " -- "завод =~ заводям-заводь-заводные-заводная
"
Спасибо.
Так ровно это я и имел в виду когда говорил о "семантике".
Потому что в общей - у Вас "объемной" - модели ничего сказать нельзя.
Остается терпеливо заниматься вполне конретными вещами.
Я Вас понимаю (в реализации идейно мы близки).
Но мой вопрос был в другом.
То что Вы излагаете - уже математическая модель.
Правильно ли я понимаю, что результат применения этой
модели к тексту Вы и называете семантикой?
Но математических моделей можно построить много
(причем Ваша собственно с текстом связана слабо - она глобальна :) )
почему Вы считаете, что Ваша модель правильна?
В том плане - как КОНСТРУКТИВНО доказать полноту,
определить границы применимости и т.п.
Пытались ли Вы попытаться разобрать реальные тексты "на руках"
по Вашей модели?
Пробовали ли оценить какие потребуются ресурсы, как они должны быть устроены.
Важный конструктивный вопрос - можете ли Вы оценить как будет зависеть качество результатов анализа текста от качества
(неполноты и ошибок в применяемых ресурсах и правилах).
Почему я все это спрашиваю.
Российская традиция исследований по семантики сильно была связана с замечательной теорией Мельчука, для реализации требовался всего-то специальный словарь (ТКС).
К сожалению, много народа положили свои годы на это дело,
но результат не был достигнут.
Как Вы думаете - в чем проблема?
С наилучшими пожеланиями
Мы никогда не употребляем слово "семантика".
Стараемся точно обозначать, что делаем.
Может Вы сможете подробнее описать?
Ну мы тоже с 1996 года применяем свою модель "лексической связности",
но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.
Причем про то, что ныне называется lexical cohesion (lexical chains),
я читал, например, у Иорданской в работах 60х годов (текстовая связность), вряд ли ошибусь, что эта штука была известна еще Аристотелю.
Простейщий, но далеко не единственный, пример лексических цепочек - повторение слова в тексте. А вот с более сложными примерами цепочек - большие проблемы. ВЫ какие имеете в виду?
А что такое, все-таки "семантика" в Вашем понимании?
Может Вы сможете кратенько описать?
Идея хорошая, но для качественной проверки придется прогнать большой объем данных.
И хотя тексты сейчас значительно чище чем раньше, но все равно
довольно много ошибок - даже при 0.1% от словоупотреблений для 100 Мбайт обработанных текстов - будет около 15 тысяч ошибок.
Плюс, допустим, столько же хороших, то есть достойных для включения в словарь, но неизвестных словарю слов (а по-видимому гораздо больше).
И огромная куча "нехороших" слов,
которые не включают обычно в словарь - фамилии,
названия мелких географических объектов, фирм, продуктов и т.п.
В результате, грубо оценивая = 100-200 тысяч строк, которые придется просмотреть ручками/глазками.
Хотя это та работа, которая делается при создании/развитии
морфословаря. Причем, ясно, однажды принятые решения могут использоваться далее. Именно за эту работу и берется "прибавочная стоимость".
Ну тогда это не ко мне. Чистку делали, но это не была критичная задача.
Кроме того, при чистке полезли проблемы, самой существенной мне кажется проблема краткой формы прилагательных ("русско-итальянский"), а также близких к ним наречий ("по-русски"). Плюс причастия с не- .
Если Вас устроит - можно переслать (bvd@mail.ru) мне список сгенеренных словоформ, а я в ответ файл обработки.