Насколько мне известно, поисковые системы (и мы в т.ч.) не использует для "основной" работы - поиска реляционные базы. Только свои индексы и словари.
Точно так.
Очень даже можно так и называть (большинство так и делает). Но мне лично кажется, что термин "семантический" здесь неточен. Здесь есть связи объект-субъектные, ролевые, просто спутниковые и т.д. Все-таки, до смысла нам далеко. Вот весь информационный портрет смысл имеет, а каждая составляющая вряд ли.
Да, тезаурус можно использовать в этих целях. Однако сделать достаточно полный тезаурус очень непросто (по-моему, даже невозможно). Реальный тезаурус прекрасно работает на примерах, для которых он создавался. Но шаг в сторону... Из реально работающих доступных тезаурусов я знаю примененный в профессиональном поиске библиотеки Паблик.Ру (есть бесплатная часть).
Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.
Вот небольшой примерчик.
Запрос "Поиск работы" (5440 док. из базы 5,5 млн. док.)
Без морфологии:
ВАКАНСИИ
ТРУДОУСТРОЙСТВУ
ПОИСКЕ
ТРУДОУСТРОЙСТВО
РАБОТОДАТЕЛЯ
ПОИСК
УСТРОИТЬСЯ
РАБОТОДАТЕЛИ
РАБОТОДАТЕЛЬ
КВАЛИФИКАЦИИ
ПОИСКОМ
ВАКАНСИЯХ
ТРУДОУСТРОЙСТВОМ
РАБОТОДАТЕЛЮ
С учетом морфологии:
ЗАНЯТОСТЬ
БЕЗРАБОТИЦА
ВАКАНСИЯ
ПОСОБИЕ
РЕЗЮМЕ
БЕЗРАБОТНЫЙ
СПЕЦИАЛЬНОСТЬ
БЕЗРАБОТНАЯ
ТРУДОВОЙ
ВЫПУСКНИК
СОБЕСЕДОВАНИЕ
[This message has been edited by AlexA (edited 06-04-2002).]
Сергей, по моему опыту, в общем, вы правы.
Согласно законам статистики, слабые связи можно уловить только при большой выборке. Так что чем больше слово встречается (в т.ч. и с учетом словоформ), тем лучше результат анализа.
Но есть несколько нюансов. К примеру,
- богатая лексема (например, глагол) сильно забивает информационный портрет своими словоформами.
- при сведении лексем возникают трудности омографии (например, ОПЕК-опека, стекло-стечь, Буре-буря и т.д.).
- слова действительно связываются в определенных словоформах, но нужно различать словосочетания ("чистый воздух", "министерство иностранных дел") от объектных связей (правительство - президент - путин - касьянов).
Ответ Дмитрию.
Информацию об этих связях система берет из найденных документов (см. выше).
Чем больше информации (зависит от количества документов, но прямой зависимости нет) о данном объекте (определенном в запросе), тем лучше и точнее Инфопортрет.
Например, на ваш, Дмитрий, запрос "пожар в Ливане" найдено 12 документов. Немного, конечно, но вот первые слова Инфопортрета:
пассажир, катастрофа, судно, взрыв, террорист, сирия, судный, море, экипаж, лайнер, палестина.
Мне кажется, среди них есть слова, имеющие отношение к "пожару в Ливане" (несмотря на ПОЛНОЕ ОТСУТСТВИЕ данного словосочетания в базе). Чем не семантическая связь? Или я ошибаюсь?