- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Вспоминается книжка Попова "Общение с ЭВМ на естественом языке" 80 г.
А существуют ли какие-нибудь работающие модели семантического поиска?
Слово "семантический" - ужасное!
Разные люди понимают под этим совершенно разные вещи.
Кроме того, одно время оно было весьма модным
(стало "понятным" массам) и, используя это слово,
раздавались БОЛЬШИЕ обещания, которые кончились пшиком.
В общем, я не знаю "работающие модели семантического поиска".
НО! Существуют достаточно разумные методы:
- интеллектуального (в смысле моделирующие то или иное человеческое поведение) расширения запроса;
- интеллектуального анализа результатов запросов (и интерактивного уточнения запроса);
- неплохие Q&A системы;
и т.п.
В некоторых узких областях удается добиваться
очень неплохих результатов (например, call center).
Кстати, в том же Яндексе (наверное и во многих других системах),
при разборе запроса применяются любопытные, как их там называют, "эвристики".
В прежние времена (в 1980х) кто-нибудь мог бы назвать это
семантическим разбором.
Разные люди понимают под этим совершенно разные вещи.
Кроме того, одно время оно было весьма модным
(стало "понятным" массам) и, используя это слово,
раздавались БОЛЬШИЕ обещания, которые кончились пшиком.
В общем, я не знаю "работающие модели семантического поиска".
Знаем, знаем, как все тут любят семантику :)
Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.
Судя по западной прессе, это лексические цепочки - они теоретически позволяют описать семантические отношения между словами.
Ну мы тоже с 1996 года применяем свою модель "лексической связности",
но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.
Причем про то, что ныне называется lexical cohesion (lexical chains),
я читал, например, у Иорданской в работах 60х годов (текстовая связность), вряд ли ошибусь, что эта штука была известна еще Аристотелю.
Простейщий, но далеко не единственный, пример лексических цепочек - повторение слова в тексте. А вот с более сложными примерами цепочек - большие проблемы. ВЫ какие имеете в виду?
А что такое, все-таки "семантика" в Вашем понимании?
Может Вы сможете кратенько описать?
но это не важно, а важно то, что к семантике "отношений между словами" это не относится. Это скорее "семантика текста" - то есть восстановление смысла текста без, возможно, понимания отдельных слов и даже фрагментов.
Собственно, я немного в курсе Ваших изысканий и знаком с тем, как в текстах определяются наиболее значимые ключевые слова в УИС РОССИЯ.
Те же, что и Вы - цепочки, которые формируются из синонимов и связанных по смыслу термов.
Понятно, что проблемы возникают потому, что тексты по своей семантической структуре слишком неоднородны и часто состоят из слабо связанных или вовсе несвязанных фрагментов. Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.
Значит, что-то все же работает? :)
Может Вы сможете кратенько описать?
Ах, кратенько... :)
Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.
Если я верно понимаю, то это "конкорданс". А еще есть программа Абриаль (там, конечно многое надо руками ваять), но что-то в этом есть. Но, разумеется, все это не претендует на "...включающей каждый существующий в мире объект...", но, тем не менее, серьезные шаги вперед!
Но, насколько я понимаю, Вам все же удалось собрать кое-какие тематические узлы с помощью тезауруса для социологических и политических текстов.
Значит, что-то все же работает? :)
Мы никогда не употребляем слово "семантика".
Стараемся точно обозначать, что делаем.
Ах, кратенько... :)
Это нечто вроде глобальной Матрицы, включающей каждый существующий в мире объект (макроконцепция в Вашей формуловке) и описывающей близость каждого объекта каждому в пределах общего для них контекста.
Может Вы сможете подробнее описать?
Что ж, я не виноват, Вы сами напросились :) Для неподготовленного читателя все это, скорее всего, будет восприниматься как бред, но что поделаешь, тема очень специфическая.
Я буду использовать терминологию, принятую в прикладном анализе данных, и опираться на понятия объекта и его свойства (описания или признаки) и гипотезу компактности.
В основе гипотезы компактности положена идея сжатия данных, состоящая в том, что если найден способ сжатого описания множества объектов, то получены эмпирические закономерности, существующие между объектами, а значит и сходство между ними. Соответственно, чем сильнее удается сжать данные, тем это сходство больше.
Для того, чтобы можно было использовать гипотезу компактности, используется специальная таблица объект-свойство (ТОС), содержащая описания объектов в качестве строк и признаки этих объектов в качестве столбцов. Таким образом, реальные объекты заменяются специальным описанием - вектор-строкой ТОС, в результате чего создается образ каждого объекта в пространстве признаков.
Согласно Гипотезе, объекты можно считать похожими, если они находятся рядом в этом пространстве.
Ну, это все, естественно, чистая теория. Попробую привести к этой гипотезе Ваши исследования, направленные на извлечение наиболее важных терминов из текстов, и свести вместе две различных области науки. :)
Итак, Вы оперируете понятием лексические цепочки, которые складываются из повторений, синонимов, итераций и тематически связанных термов. Однако, по причине того, что каждый терм может быть включен в любую лексическую цепочку, имея при этом различное лексическое значение, такую цепочку нельзя собирать в отрыве от контекста анализируемого фрагмента текста.
Поэтому в этом месте Вы, в лучших традициях ООП, используете абстракцию, то есть отбираете только те свойства объектов, которые представляют интерес - подключаете тезаурус, заточенный на политических и социологических документах. Кое-кто для этого использует подмножество WordNet, чтобы объединить термы с одним и тем же смыслом. С точки же зрения Гипотезы Вы задаете начальные расстояния между термами и определяете их тематическую связность.
В результате образуется пространство признаков, а близкие термы объединяются в лексические цепочки. Самое интересное, что в эти цепочки включаются и названия самого объекта, который они описывают (по-Вашему, макроконцепции).
Так как любой текст базируется на отношениях между различными объектами, то их и нужно рассчитывать. Если формализовать связанные с каждым объектом лексические цепочки, например, оценив состав термов в них, то теоретически можно найти "расстояние" между ними и определить меру сходства каждого объекта. Похожие объекты будут составлять тезаурус предметной области, какой - будет понятно по названиям макроконцепций, содержащихся в лексических цепочках. :)
Т.е. при поиске пользователю выдается список уточнений - основанный на таких цепочках, и остальной поиск происходит через уточнение в каком именно контексте (окружении слов) он желает получить ответ?
Что ж, я не виноват, Вы сами напросились :) Для неподготовленного читателя все это, скорее всего, будет восприниматься как бред, но что поделаешь, тема очень специфическая.
...
Я Вас понимаю (в реализации идейно мы близки).
Но мой вопрос был в другом.
То что Вы излагаете - уже математическая модель.
Правильно ли я понимаю, что результат применения этой
модели к тексту Вы и называете семантикой?
Но математических моделей можно построить много
(причем Ваша собственно с текстом связана слабо - она глобальна :) )
почему Вы считаете, что Ваша модель правильна?
В том плане - как КОНСТРУКТИВНО доказать полноту,
определить границы применимости и т.п.
Пытались ли Вы попытаться разобрать реальные тексты "на руках"
по Вашей модели?
Пробовали ли оценить какие потребуются ресурсы, как они должны быть устроены.
Важный конструктивный вопрос - можете ли Вы оценить как будет зависеть качество результатов анализа текста от качества
(неполноты и ошибок в применяемых ресурсах и правилах).
Почему я все это спрашиваю.
Российская традиция исследований по семантики сильно была связана с замечательной теорией Мельчука, для реализации требовался всего-то специальный словарь (ТКС).
К сожалению, много народа положили свои годы на это дело,
но результат не был достигнут.
Как Вы думаете - в чем проблема?
С наилучшими пожеланиями
по Вашей модели?
Пробовали ли оценить какие потребуются ресурсы, как они должны быть устроены.
Важный конструктивный вопрос - можете ли Вы оценить как будет зависеть качество результатов анализа текста от качества
(неполноты и ошибок в применяемых ресурсах и правилах).
Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко. :)
Кое-что я пробовал сделать, что-то получилось, что-то нет. В общем-то, у меня была возможность создать подобную систему, но числиться в соавторах докторской и тянуть все на себе у меня особого желания не было.
но результат не был достигнут.
Как Вы думаете - в чем проблема?
Думаю, в том, что одна и та же морфологическая лексема может иметь бесконечное количество лексических значений, в зависимости от контекста, не говоря уже о словосочетаниях. Поэтому сразу же у Вас и возник вопрос о глобальности моей модели - в ней нет конечных условий, а каких либо ограничений априори я не задаю.
Но никто ведь не мешает задать граничные условия, например, определив коррелируемость различных термов друг с другом с пределах связанных фрагментов текста.
Я описал свои субъективные представления о данной проблеме. Но ведь
изначально правильная объемная модель здесь неизвестна, не так ли?