Попадалось число 12, как интервал слов, связанных с данным. Конечно, это не включает подчиненные предложения и анафоры.
Это не так уж важно, на мой взгляд.
Расходы на хранение в простейшей реляционной таблице не так велики, а написать такую таблицу в файловой системе относительно несложно. Так что, зависит от ваших предпочтений. Если сделали в БД, так и оставайтесь там, выгоды от других решений не перевесят вложенный труд.
Кое-что из этого может: ДВУХСТЕПЕННЫЙ ГИРОСКОП, волновой гироскоп (двухсловные словосочетания). Остальное - тоже, но пока руки не дошли до конца довести. Проблема омографии чуть более болезненна.
Работаем...
А вот если бы система позволяла давать полное описание в виде связной статьи (в общем случае, конечно), ходить бы тогда нам в нобелевских лауреатах.
Увы, это - не ближайшая перспектива.
в продолжение ответа spark.
Другие примеры показаны в нашей " энциклопедии ".
Конечно, все зависит от базы (массива текстов). Здесь - СМИ, и лучше всего в ней видны "медицинские" объекты:
Педиатр, Наркоз, Виагра, Бронхит и т.д.
Кратко говоря, на это в первую очередь и нацелен наш инстумент. Он помогает найти все ассоциированные с искомым объектом понятия, в т.ч., естественно, его свойства (описание).
С помощью получаемого информационного портрета (решения обратной задачи) легче решить поставленные вами 2 проблемы:
1. задачу оптимальной формулировки запроса к ПС для определения свойств объекта.
Для "электродвигателя" - нужно его описание, в отличие от сферы употребления, которая чаще всего и вылезает.
2. задачу собственно выделения из полученных текстов искомых свойств.
Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ
Скорее всего, это не глюк, а особенность обработки больших чисел (экономия на словаре).