AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы

Originally posted by Developer:
Какие интервалы разумно брать для вычисления объектных связей между словами? В пределах предложения, абзаца, статьи...

Попадалось число 12, как интервал слов, связанных с данным. Конечно, это не включает подчиненные предложения и анафоры.

Originally posted by Developer:
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Это не так уж важно, на мой взгляд.

Расходы на хранение в простейшей реляционной таблице не так велики, а написать такую таблицу в файловой системе относительно несложно. Так что, зависит от ваших предпочтений. Если сделали в БД, так и оставайтесь там, выгоды от других решений не перевесят вложенный труд.

Originally posted by Developer:
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?

Это не так уж важно, на мой взгляд.

Расходы на хранение в простейшей реляционной таблице не так велики, а написать такую таблицу в файловой системе относительно несложно. Так что, зависит от ваших предпочтений. Если сделали в БД, так и оставайтесь там, выгоды от других решений не перевесят вложенный труд.

Originally posted by Vyacheslav Tikhonov:
Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Кое-что из этого может: ДВУХСТЕПЕННЫЙ ГИРОСКОП, волновой гироскоп (двухсловные словосочетания). Остальное - тоже, но пока руки не дошли до конца довести. Проблема омографии чуть более болезненна.

Работаем...

А вот если бы система позволяла давать полное описание в виде связной статьи (в общем случае, конечно), ходить бы тогда нам в нобелевских лауреатах.

Увы, это - не ближайшая перспектива.

Originally posted by Vyacheslav Tikhonov:
Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?

Кое-что из этого может: ДВУХСТЕПЕННЫЙ ГИРОСКОП, волновой гироскоп (двухсловные словосочетания). Остальное - тоже, но пока руки не дошли до конца довести. Проблема омографии чуть более болезненна.

Работаем...

А вот если бы система позволяла давать полное описание в виде связной статьи (в общем случае, конечно), ходить бы тогда нам в нобелевских лауреатах.

Увы, это - не ближайшая перспектива.

в продолжение ответа spark.

Другие примеры показаны в нашей " энциклопедии ".

Конечно, все зависит от базы (массива текстов). Здесь - СМИ, и лучше всего в ней видны "медицинские" объекты:

Педиатр, Наркоз, Виагра, Бронхит и т.д.

в продолжение ответа spark.

Другие примеры показаны в нашей " энциклопедии ".

Конечно, все зависит от базы (массива текстов). Здесь - СМИ, и лучше всего в ней видны "медицинские" объекты:

Педиатр, Наркоз, Виагра, Бронхит и т.д.

Originally posted by spark:
Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.

На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.

Кратко говоря, на это в первую очередь и нацелен наш инстумент. Он помогает найти все ассоциированные с искомым объектом понятия, в т.ч., естественно, его свойства (описание).

С помощью получаемого информационного портрета (решения обратной задачи) легче решить поставленные вами 2 проблемы:

1. задачу оптимальной формулировки запроса к ПС для определения свойств объекта.

Для "электродвигателя" - нужно его описание, в отличие от сферы употребления, которая чаще всего и вылезает.

2. задачу собственно выделения из полученных текстов искомых свойств.

Вот пример:

запрос "гироскоп" (найдено 423 док.)

список слов

ГИРОСКОП

РАКЕТА

КОСМИЧЕСКИЙ

ЛАЗЕРНЫЙ

ПОЛЕТ

РАКЕТНЫЙ

НАВИГАЦИОННЫЙ

БОРТОВОЙ

ПРИБОР

ОРБИТА

ДАТЧИК

ДВИГАТЕЛЬ

САМОКАТ

ГИРОСКОПИЧЕСКИЙ

ОРБИТАЛЬНЫЙ

Originally posted by spark:
Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.

На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.

Кратко говоря, на это в первую очередь и нацелен наш инстумент. Он помогает найти все ассоциированные с искомым объектом понятия, в т.ч., естественно, его свойства (описание).

С помощью получаемого информационного портрета (решения обратной задачи) легче решить поставленные вами 2 проблемы:

1. задачу оптимальной формулировки запроса к ПС для определения свойств объекта.

Для "электродвигателя" - нужно его описание, в отличие от сферы употребления, которая чаще всего и вылезает.

2. задачу собственно выделения из полученных текстов искомых свойств.

Вот пример:

запрос "гироскоп" (найдено 423 док.)

список слов

ГИРОСКОП

РАКЕТА

КОСМИЧЕСКИЙ

ЛАЗЕРНЫЙ

ПОЛЕТ

РАКЕТНЫЙ

НАВИГАЦИОННЫЙ

БОРТОВОЙ

ПРИБОР

ОРБИТА

ДАТЧИК

ДВИГАТЕЛЬ

САМОКАТ

ГИРОСКОПИЧЕСКИЙ

ОРБИТАЛЬНЫЙ

Скорее всего, это не глюк, а особенность обработки больших чисел (экономия на словаре).

Всего: 166