Поисковая машина нового поколения -2

B

42

bvd

20 марта 2004, 15:22

1978

Хотелось бы выделить новую подтему.

Новую потому, что

в старой этого вопроса коснулись, но от него отошли...

Мне же кажется, что вопрос достаточно серьезный.

Поводом явилась тема в

"Прочие. Самое разное"

В теме "Поисковая машина нового поколения"

я сам написал

Как писал bvd
Если основным игрокам удастся договориться по стандартам,
то поисковая машина нового поколения будет работать в Semantic Web.

Игорь Ашманов прокомментировал:

Как писал Ashmanov
Про Семантическую паутину ключевое слово - "удастся договориться". А если удастся договориться про почту, не будет почтового спама. А если удастся договориться про таможню, не будет наркотиков. Преступности. Войн. Национальных конфликтов. Обиженных и несчастных. И так далее...

Типично иронично, и кажется, что вполне резонно. Я сам так думал года полтора назад.

Однако не все так просто.

Рекомендую посмотреть
документ

Чтобы его правильно понимать - буквы в скобочках означают:

(STREP) - исследовательский проект - до 2 млн. евро

(NoE) - Network of Excelence, 2-5 млн. евро - по сути, сеть

организаций для разработки/подготовки десятка проектов

типа STREP

(IP) - Integration Project - может быть и до 100 млн. -

по сути, уже объединяет десяток/десятки STREPов

все проекты года на три

Ясно, что провозглашаемое в этих проектах в заявленном виде

достигнуто не будет (как всегда).

Но что-то да наработают.

Какие будут мнения о том что будет, и на что это сгодится?

С точки зрения поиска и сточки зрения SEO?

K

31

Ken

27 апреля 2004, 12:05

#1

Думаю, что в лучшем варианте - следует ожидать стандарта по ведению сематических связей.

В отличие от русского языка, у них задачи морфологии и синтаксиса формализованы давно, готовых решений много, поэтому они переходят уже на более высокий уровень, модной нынче онтологии.

Допустим найдется Н-е количество людей - профессионалов в совей области знаний, которые выпишут семантические связи, которые будут статистичекски проработаны. А будет ли достигнуто "понимание" - тут надо у Гуру спрашивать:) Статистика - вообще лженаука:)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

MG

27

MaxGubin

28 апреля 2004, 09:34

#2

IMHO никак не повлияет. Не меньшие суммы регулярно тратятся на, например, разработку стандартов по оформлению документов и классификаторов, но никто не ожидает, что завтра произойдет качественное изменение в этой области.

Главная проблема всех этих онтологических изысканий - они бесконечно далеки от практики работы реальных пользователей информации и переполнены демагогией.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

28 апреля 2004, 09:55

#3

Тут можно задаться еще одним вопросом: А сможет техника учета онтологии быть лучше (по времени и по релевантности), чем пред обработка parser-ами или chunker-ами?

B

42

bvd

28 апреля 2004, 14:24

#4

Как писал MaxGubin
IMHO никак не повлияет. Не меньшие суммы регулярно тратятся на, например, разработку стандартов по оформлению документов и классификаторов, но никто не ожидает, что завтра произойдет качественное изменение в этой области.
Главная проблема всех этих онтологических изысканий - они бесконечно далеки от практики работы реальных пользователей информации и переполнены демагогией.

IMHO повлияет и очень сильно, причем учитывая планы Microsoft,

возможно достаточно скоро.

Только повлияет не совсем так, или совсем не так, как сейчас пишут.

Конечно, когда сейчас западные (и не только) люди пишут про онтологии - это чаще всего "новое знамя" в борьбе за ...

Однако, уже СЕЙЧАС все сходятся в простейших онтологиях:

дата, автор, место (адрес), цена товара и т.п.

Дело в том, что даже такие простые вещи могут сильно изменить Веб.

Пресловутый "ближайший магазин, где продается требуемый товар".

Сейчас многие стараются поддерживать списки географической привязки

(в лучшем виде с локализацией до города), которые неполны, неточны, неактуальны и т.п. Тут же этих проблем не будет (м.б. будут другие).

Или, например, легко считывать цену товара, а не писать сложные программы ее извлечения по тексту (найти прайс-лист, разобрать, классифицировать). В сочетании с датой прайса - чем плохо?

В общем виде, речь идет о дополнительной информации, которая позволит устанавливать дополнительные связи помимо явных ссылок, в том числе на централизованные базы данных.

Сейчас уже видны сферы применения:

свободный обмен структурированной информацией между большими ("солидными" - не жульничаюшими, авторизованными) игроками.

Исследование более сложных онтологий здесь (что бы не писали грантопросители) - это на самом деле поиск границы того, что будет использоваться или не будет нужно, или будет нужно в узких сообществах.

Собственно, мой вопрос/интерес в том же - есть ли что нибудь еще нужное, кроме поиска ближайшего магазина и лучших цен.

Например, что нужно указывать о товаре (на странице и в запросе), чтобы можно было подобрать лучший для пользователя?

Как писал MaxGubin
... они бесконечно далеки от практики работы реальных пользователей информации и переполнены демагогией.

Немного демагогии.

ЧТо такое реальные пользователи?

IMHO это такие РЕАЛЬНЫЕ пацаны, которые платят деньги или готовы платить, но которые ХОТЯТ знать за что платят - то есть должны иметь возможность сравнить с другими предложениями.

Тут на форуме уже не раз писалось, что для нахождения лучшего предложения, когда надо что-то купить, сейчас рекомендуют прыгать сразу на страницу 5-ую выдачи. Как-то это с трудом вяжется с основной функцией нынешних поисковых машин.

Специализированные сайты по товарам обычно набиты всяким интерактивом для уточнения запроса - для меня это значит, что для реальных пользователей текущий стандартный интерфейс ПМ не очень подходит -

и чем дальше, тем больше.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

MG

27

MaxGubin

29 апреля 2004, 06:44

#5

Опять же строго IMHO, но структурированное представление информации, например, о ценах по-моему не очень вяжется с бытующим понятием "онтология" при всей ее расплывчатости. Кроме того, практически все поисковики это сейчас уже умеют. Ну и существуют специализированные системы типа price.ru и т.п. Я сам еще в "довебовскую" эпоху занимался такой системой вытаскивания информации о недвижимости из объявлений. Никто никогда не объявлял это "онтологиями","семантикой" и т.д.

Я совершенно согласен, что пацаны с деньгами и с малым количеством времени - это реальные пользователи. А товарищи, которые ожидают, что поисковик будет разумен как эксперт во всех областях, с помощью примитивных средств WordNet или синтаксического анализа с использованием онтологического словаря профессора Х - пользователи только в умах академических исследователей. Но, как правило, когда написано "семантика и онтология", то подразумеваются вторые.

Я считаю, что движение будет с двух сторон - системы будут лучше разбирать неструктурированную информацию и информация будет структурироваться для поисковиков, но это будет взаимное эволюционное развитие. Прорывов глобально не будет. Будет так - все в мета начнут закладывать географию и поисковики начнут проверять. Это улучшит поиск ближайших магазинов. Почти сразу начнется киберспам и дополнительные проверки поисковиками этой информации по другим критериям, что приведет к тому, что поиск улучшится, но шум все равно будет и т.д.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

29 апреля 2004, 07:57

#6

Как писал MaxGubin
Опять же строго IMHO, но структурированное представление информации, например, о ценах по-моему не очень вяжется с бытующим понятием "онтология" при всей ее расплывчатости.

Никто и не спорит об этом.

Мой вопрос прежний - есть ли реально в массовом (для массового

пользователя) поиске задачи, которые могут решаться лучше с использованием доп.разметки, как бы она не называлась.

Есть ли такие задачи в ограниченных стабильных сообществах.

Как писал MaxGubin
Кроме того, практически все поисковики это сейчас уже умеют. Ну и существуют специализированные системы типа price.ru и т.п. Я сам еще в "довебовскую" эпоху занимался такой системой вытаскивания информации о недвижимости из объявлений. Никто никогда не объявлял это "онтологиями","семантикой" и т.д.

Умеют но плохо, и проблем очень много. Когда требуется качество,

сажают девочек на ручной ввод. Пока этого достаточно.

Конечно, то что умеют делать сейчас - это очень простые вещи

(раньше называлось information extraction).

Здесь две разных задачи:

1) уже то, что умеют, может быть очень полезно

2) действительно, нечетко определена граница (и здесь очень много спекуляций) что смогут сделать

Как писал MaxGubin
товарищи, которые ожидают, что поисковик будет разумен как эксперт во всех областях, с помощью примитивных средств WordNet или синтаксического анализа с использованием онтологического словаря профессора Х - пользователи только в умах академических исследователей. Но, как правило, когда написано "семантика и онтология", то подразумеваются вторые.

Я не думаю, что "поисковик будет разумен как эксперт во всех областях".

Однако, когда ничего из стандартного набора не помогает, могут

помочь даже и приведенные Вами примеры технологий.

Кроме того, если можно заранее - по разметке - знать предметную область текста, то уровень автоматической обработки можно поднять,

привлекая специализированные лингвистические ресурсы.

Уверяю, что достаточно большие предметные области "покрываются в ноль" за вполне разумные время-деньги (конечно не все, но и этого может быть достаточно).

Как писал MaxGubin
Будет так - все в мета начнут закладывать географию и поисковики начнут проверять. Это улучшит поиск ближайших магазинов. Почти сразу начнется киберспам и дополнительные проверки поисковиками этой информации по другим критериям, что приведет к тому, что поиск улучшится, но шум все равно будет и т.д.

Тут ведь главное, что "поиск улучшится".

Как писал MaxGubin
Прорывов глобально не будет.

С этим как раз не очень понятно.

Цель то ведь какая - чтобы страницы в вебе генерились машинами для машин.

То есть либо страниц будет очень много - гораздо больше чем сейчас.

Либо будет одна большая страница (типа robots.semweb)

содержимого базы данных с перечнем указателей на другие страницы (возможно динамические) для робота - куда идти.

И что такое прорыв?

Возможность общаться (закупать автоматом подешевле при наличии)

между собой "домашнему холодильнику" и "магазину продуктов" при этом

выглядит вполне реализуемой.

Джон Мюллер об использовании Александр Садовский: «Некорректно делить Google о повторяющемся контенте

MG

27

MaxGubin

29 апреля 2004, 10:48

#7

Мой вопрос прежний - есть ли реально в массовом (для массового
пользователя) поиске задачи, которые могут решаться лучше с использованием доп.разметки, как бы она не называлась.

Насколько я вижу - товары/услуги (обобщение цен) и новости (RSS и т.п.). Больше не могу придумать. А в этих двух случаях однозначно удастся получить улучшение результатов.

N

12

Nobbin

3 мая 2004, 16:45

#8

Мой вопрос прежний - есть ли реально в массовом (для массового пользователя) поиске задачи, которые могут решаться лучше с использованием доп.разметки, как бы она не называлась.

При поиске людей наверное может пригодиться. Если я знаю фамилию, имя и отчество, а мне нужны все упоминания как полностью написанных ФИО, так и фамилии с инициалами. Обычно поисковики выдают кучу мусора (например список людей, где у одного совпадают инициалы, а у следующего фамилия).

как искать в гугл Дзен Добавьте налоговую информацию

Google: E-E-A-T не является фактором ранжирования

Что такое Power BI и зачем это нужно бизнесу