Собственно, я немного в курсе Ваших изысканий и знаком с тем, как в текстах определяются наиболее значимые ключевые слова в УИС РОССИЯ.
Те же, что и Вы - цепочки, которые формируются из синонимов и связанных по смыслу термов.
Понятно, что проблемы возникают потому, что тексты по своей семантической структуре слишком неоднородны и часто состоят из слабо связанных или вовсе несвязанных фрагментов. Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.
Значит, что-то все же работает? :)
Ах, кратенько... :)
Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.
Хоть и немного с опозданием, но присоединяюсь!
С днем рождения, Светлана!
Два раза перечитал топик, но так и не понял, каким боком он стыкуется с поисковыми технологиями. Переношу в раздел "Вопросы для новичков".
Да вроде как уже все давным-давно обсудили.
Вовсе не обязательно. Если в руках есть изменяющийся хороший набор текстов, вполне возможно периодически устраивать подобную чистку и автоматически.
Знаем, знаем, как все тут любят семантику :)
Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.
Ken, у Вас явно неправильный набор текстов. Возьмите содержимое lib.ru, оно покроет 95% всех общеупотребительных словоформ ;)
Для остальных форм можно использовать статистику по количеству страниц для каждой такой подозрительной формы в яндексе (для русского) и google (для английского). Для поиска конкретной словоформы ставьте перед ней знак !, например,
!ищомый.
И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.
Хорошо, представим себе гипотетическую поисковую машину, релевантность которой определяется не расстановкой ключевых слов в текстах или разностью позиций этих слов, а объектами, содержащимися в этих текстах. Например, понятие 'поисковая система' может быть названо как угодно, к примеру, поисковая машина, искалка или поисковик, однако смысл его от этого ведь нисколько не изменится.
Подобная интеллектуальная поисковая система будет работать только с понятиями, непрерывно соединяя лексические цепочки, рассчитывая расстояния между различными объектами, классифицируя новые понятия, собирая кластеры и т.д.
Подобную систему невозможно будет проспамить или обмануть, так как она работает на семантическом, более высоком уровне абстракции и легко распознает все исскуственные попытки продвинуть вверх документы "не по теме".
Теперь вопрос. Как сделать подобную машину в условиях open-source при отсутствии базы (словарей, наработок и т.д.) и, что самое главное, не опираясь на алгоритмы современных полнотекстовых поисковых систем?
Базовые алгоритмы и теория поиска ведь уже не изменится, не так ли?
Короче говоря, предложить что-то действительно новое в области информационного поиска может только человек, который спроектировал и уже успешно запустил полнотекстовую поисковую машину и обладающий соответствующим опытом. Новички-энтузиасты могут только повторить достижения уже существующих систем.
Я таки выпадаю из общего ритма - к сожалению, в пятницу в отъезде. :(
Если что, звоните сразу Cherny.