AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы


С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows?

Насколько мне известно, поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.


вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД?

Точно так.


почему нельзя объектную связь назвать семантической, т.е. смысловой?

Очень даже можно так и называть (большинство так и делает). Но мне лично кажется, что термин "семантический" здесь неточен. Здесь есть связи объект-субъектные, ролевые, просто спутниковые и т.д. Все-таки, до смысла нам далеко. Вот весь информационный портрет смысл имеет, а каждая составляющая вряд ли.


С какой БД вы работаете? MS SQL Server, судя по тому, что предлагаете решения для Windows?

Насколько мне известно, поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.


вам приходится рассчитывать объектные связи и сохранять их как индексы во время заполнения БД?

Точно так.


почему нельзя объектную связь назвать семантической, т.е. смысловой?

Очень даже можно так и называть (большинство так и делает). Но мне лично кажется, что термин "семантический" здесь неточен. Здесь есть связи объект-субъектные, ролевые, просто спутниковые и т.д. Все-таки, до смысла нам далеко. Вот весь информационный портрет смысл имеет, а каждая составляющая вряд ли.


для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус.

Да, тезаурус можно использовать в этих целях. Однако сделать достаточно полный тезаурус очень непросто (по-моему, даже невозможно). Реальный тезаурус прекрасно работает на примерах, для которых он создавался. Но шаг в сторону... Из реально работающих доступных тезаурусов я знаю примененный в профессиональном поиске библиотеки Паблик.Ру (есть бесплатная часть).


слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.


для этого второго шага уже нужно иметь тематический тезаурус, причем хороший полный тезаурус.

Да, тезаурус можно использовать в этих целях. Однако сделать достаточно полный тезаурус очень непросто (по-моему, даже невозможно). Реальный тезаурус прекрасно работает на примерах, для которых он создавался. Но шаг в сторону... Из реально работающих доступных тезаурусов я знаю примененный в профессиональном поиске библиотеки Паблик.Ру (есть бесплатная часть).


слова в словосочетании чаще всего стоят рядом?

Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.

Вот небольшой примерчик.

Запрос "Поиск работы" (5440 док. из базы 5,5 млн. док.)

Без морфологии:

ВАКАНСИИ

ТРУДОУСТРОЙСТВУ

ПОИСКЕ

ТРУДОУСТРОЙСТВО

РАБОТОДАТЕЛЯ

ПОИСК

УСТРОИТЬСЯ

РАБОТОДАТЕЛИ

РАБОТОДАТЕЛЬ

КВАЛИФИКАЦИИ

ПОИСКОМ

ВАКАНСИЯХ

ТРУДОУСТРОЙСТВОМ

РАБОТОДАТЕЛЮ

С учетом морфологии:

ЗАНЯТОСТЬ

ТРУДОУСТРОЙСТВО

БЕЗРАБОТИЦА

ВАКАНСИЯ

РАБОТОДАТЕЛЬ

ПОСОБИЕ

РЕЗЮМЕ

БЕЗРАБОТНЫЙ

СПЕЦИАЛЬНОСТЬ

БЕЗРАБОТНАЯ

ТРУДОВОЙ

ВЫПУСКНИК

СОБЕСЕДОВАНИЕ

[This message has been edited by AlexA (edited 06-04-2002).]

Вот небольшой примерчик.

Запрос "Поиск работы" (5440 док. из базы 5,5 млн. док.)

Без морфологии:

ВАКАНСИИ

ТРУДОУСТРОЙСТВУ

ПОИСКЕ

ТРУДОУСТРОЙСТВО

РАБОТОДАТЕЛЯ

ПОИСК

УСТРОИТЬСЯ

РАБОТОДАТЕЛИ

РАБОТОДАТЕЛЬ

КВАЛИФИКАЦИИ

ПОИСКОМ

ВАКАНСИЯХ

ТРУДОУСТРОЙСТВОМ

РАБОТОДАТЕЛЮ

С учетом морфологии:

ЗАНЯТОСТЬ

ТРУДОУСТРОЙСТВО

БЕЗРАБОТИЦА

ВАКАНСИЯ

РАБОТОДАТЕЛЬ

ПОСОБИЕ

РЕЗЮМЕ

БЕЗРАБОТНЫЙ

СПЕЦИАЛЬНОСТЬ

БЕЗРАБОТНАЯ

ТРУДОВОЙ

ВЫПУСКНИК

СОБЕСЕДОВАНИЕ

[This message has been edited by AlexA (edited 06-04-2002).]

Сергей, по моему опыту, в общем, вы правы.

Согласно законам статистики, слабые связи можно уловить только при большой выборке. Так что чем больше слово встречается (в т.ч. и с учетом словоформ), тем лучше результат анализа.

Но есть несколько нюансов. К примеру,

- богатая лексема (например, глагол) сильно забивает информационный портрет своими словоформами.

- при сведении лексем возникают трудности омографии (например, ОПЕК-опека, стекло-стечь, Буре-буря и т.д.).

- слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

Сергей, по моему опыту, в общем, вы правы.

Согласно законам статистики, слабые связи можно уловить только при большой выборке. Так что чем больше слово встречается (в т.ч. и с учетом словоформ), тем лучше результат анализа.

Но есть несколько нюансов. К примеру,

- богатая лексема (например, глагол) сильно забивает информационный портрет своими словоформами.

- при сведении лексем возникают трудности омографии (например, ОПЕК-опека, стекло-стечь, Буре-буря и т.д.).

- слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).

Ответ Дмитрию.

Информацию об этих связях система берет из найденных документов (см. выше).

Чем больше информации (зависит от количества документов, но прямой зависимости нет) о данном объекте (определенном в запросе), тем лучше и точнее Инфопортрет.

Например, на ваш, Дмитрий, запрос "пожар в Ливане" найдено 12 документов. Немного, конечно, но вот первые слова Инфопортрета:

пассажир, катастрофа, судно, взрыв, террорист, сирия, судный, море, экипаж, лайнер, палестина.

Мне кажется, среди них есть слова, имеющие отношение к "пожару в Ливане" (несмотря на ПОЛНОЕ ОТСУТСТВИЕ данного словосочетания в базе). Чем не семантическая связь? Или я ошибаюсь?

[This message has been edited by AlexA (edited 06-04-2002).]

[This message has been edited by AlexA (edited 06-04-2002).]

Ответ Дмитрию.

Информацию об этих связях система берет из найденных документов (см. выше).

Чем больше информации (зависит от количества документов, но прямой зависимости нет) о данном объекте (определенном в запросе), тем лучше и точнее Инфопортрет.

Например, на ваш, Дмитрий, запрос "пожар в Ливане" найдено 12 документов. Немного, конечно, но вот первые слова Инфопортрета:

пассажир, катастрофа, судно, взрыв, террорист, сирия, судный, море, экипаж, лайнер, палестина.

Мне кажется, среди них есть слова, имеющие отношение к "пожару в Ливане" (несмотря на ПОЛНОЕ ОТСУТСТВИЕ данного словосочетания в базе). Чем не семантическая связь? Или я ошибаюсь?

[This message has been edited by AlexA (edited 06-04-2002).]

[This message has been edited by AlexA (edited 06-04-2002).]

Всего: 166