Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

15 января 2004, 13:59

Ну мы тоже с 1996 года применяем свою модель "лексической связности",
но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.

Собственно, я немного в курсе Ваших изысканий и знаком с тем, как в текстах определяются наиболее значимые ключевые слова в УИС РОССИЯ.

Простейщий, но далеко не единственный, пример лексических цепочек - повторение слова в тексте. А вот с более сложными примерами цепочек - большие проблемы. ВЫ какие имеете в виду?

Те же, что и Вы - цепочки, которые формируются из синонимов и связанных по смыслу термов.

Понятно, что проблемы возникают потому, что тексты по своей семантической структуре слишком неоднородны и часто состоят из слабо связанных или вовсе несвязанных фрагментов. Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.

Значит, что-то все же работает? :)

А что такое, все-таки "семантика" в Вашем понимании?
Может Вы сможете кратенько описать?

Ах, кратенько... :)

Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.

ostmaster, с Днем Рождения!

15 января 2004, 13:03

Хоть и немного с опозданием, но присоединяюсь!

С днем рождения, Светлана!

Выделенный IP - конкурентное преимущество?

14 января 2004, 13:16

Два раза перечитал топик, но так и не понял, каким боком он стыкуется с поисковыми технологиями. Переношу в раздел "Вопросы для новичков".

Поиск позиций сайтов в поисковиках

13 января 2004, 10:50

а вот если он захочет дать определение термина "робот", то это будет очень интересно и познавательно обсудить...

Да вроде как уже все давным-давно обсудили.

Тестирование словаря

13 января 2004, 10:02

Как писал Keva а вот этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Вовсе не обязательно. Если в руках есть изменяющийся хороший набор текстов, вполне возможно периодически устраивать подобную чистку и автоматически.

Поисковая машина нового поколения

12 января 2004, 23:26

Слово "семантический" - ужасное!

Разные люди понимают под этим совершенно разные вещи.
Кроме того, одно время оно было весьма модным
(стало "понятным" массам) и, используя это слово,
раздавались БОЛЬШИЕ обещания, которые кончились пшиком.

В общем, я не знаю "работающие модели семантического поиска".

Знаем, знаем, как все тут любят семантику :)

А существуют ли какие-нибудь работающие модели семантического поиска?

Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.

Тестирование словаря

12 января 2004, 23:09

Слишком много слов, которые в результате набора статистики не будут упомянуты. Много ручной работы.

Ken, у Вас явно неправильный набор текстов. Возьмите содержимое lib.ru, оно покроет 95% всех общеупотребительных словоформ ;)

Для остальных форм можно использовать статистику по количеству страниц для каждой такой подозрительной формы в яндексе (для русского) и google (для английского). Для поиска конкретной словоформы ставьте перед ней знак !, например,

!ищомый.

Тестирование словаря

12 января 2004, 13:14

Вот например, глагол ИСКАТЬ - у меня сгенерировалась форма прич. наст. "ищомый" по всем правилам - естественно никакой прогон не выявит, что это ошибка. А вот сравнение с другим солварем - сразу покажет что такой формы нет.

И для этого нужен другой словарь? Почему нельзя прогнать программу на тех же текстах и посчитать статистику использования каждой словоформы? Неверные формы отпадут сами собой.

Поисковая машина нового поколения

9 января 2004, 16:24

Очень многообещающий топик - но, на мой взгляд, не высказано ни одной ЦЕЛИ, которую необходимо достичь в системе НОВОГО ПОКОЛЕНИЯ

Хорошо, представим себе гипотетическую поисковую машину, релевантность которой определяется не расстановкой ключевых слов в текстах или разностью позиций этих слов, а объектами, содержащимися в этих текстах. Например, понятие 'поисковая система' может быть названо как угодно, к примеру, поисковая машина, искалка или поисковик, однако смысл его от этого ведь нисколько не изменится.

Подобная интеллектуальная поисковая система будет работать только с понятиями, непрерывно соединяя лексические цепочки, рассчитывая расстояния между различными объектами, классифицируя новые понятия, собирая кластеры и т.д.

Подобную систему невозможно будет проспамить или обмануть, так как она работает на семантическом, более высоком уровне абстракции и легко распознает все исскуственные попытки продвинуть вверх документы "не по теме".

Теперь вопрос. Как сделать подобную машину в условиях open-source при отсутствии базы (словарей, наработок и т.д.) и, что самое главное, не опираясь на алгоритмы современных полнотекстовых поисковых систем?

Базовые алгоритмы и теория поиска ведь уже не изменится, не так ли?

Короче говоря, предложить что-то действительно новое в области информационного поиска может только человек, который спроектировал и уже успешно запустил полнотекстовую поисковую машину и обладающий соответствующим опытом. Новички-энтузиасты могут только повторить достижения уже существующих систем.

PubConference Kiev 2003

23 декабря 2003, 12:02

Я таки выпадаю из общего ритма - к сожалению, в пятницу в отъезде. :(

Если что, звоните сразу Cherny.

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Vyacheslav Tikhonov