Именно так!
Чтобы ответить на вопрос "что лучше" надо иметь целевую функцию.
Если контент хороший и целевая функция - привлечение спосоров
(которые могут принести поболее любой рекламы) - лучше один сайт.
Для хорошего сайта поднимут квоту индексирования.
Если контент разделИм - спосоры разные - разделить.
Если целевая функция - отбивка рекламы - другие стратегии...
Меня задевает когда на неплохое дело (консультирование в получении грантов ЕС) замазывается.
И я думаю эти люди смогут сделать то, чего захотят ...
оказывается, интереснее.
Эта организация (Институт ...) от этого домена отказалась,
сейчас у них другой.
Но осталось много ссылок с приличных сайтов ведущих на старое место.
Сейчас они будут пытаться выяснять, что там на самом деле происходит, и что можно сделать.
Этот сайт принадлежит вполне нормальной организации, которая никогда не будет такими вещами заниматься.
Насколько я знаю, они сейчас в процессе переезда.
При попытке входа - выдается всякое интересное содержание.
По-видимому - это взлом.
Я отзвонюсь - может быть поправят.
Никто и не спорит об этом.
Мой вопрос прежний - есть ли реально в массовом (для массового
пользователя) поиске задачи, которые могут решаться лучше с использованием доп.разметки, как бы она не называлась.
Есть ли такие задачи в ограниченных стабильных сообществах.
Умеют но плохо, и проблем очень много. Когда требуется качество,
сажают девочек на ручной ввод. Пока этого достаточно.
Конечно, то что умеют делать сейчас - это очень простые вещи
(раньше называлось information extraction).
Здесь две разных задачи:
1) уже то, что умеют, может быть очень полезно
2) действительно, нечетко определена граница (и здесь очень много спекуляций) что смогут сделать
Я не думаю, что "поисковик будет разумен как эксперт во всех областях".
Однако, когда ничего из стандартного набора не помогает, могут
помочь даже и приведенные Вами примеры технологий.
Кроме того, если можно заранее - по разметке - знать предметную область текста, то уровень автоматической обработки можно поднять,
привлекая специализированные лингвистические ресурсы.
Уверяю, что достаточно большие предметные области "покрываются в ноль" за вполне разумные время-деньги (конечно не все, но и этого может быть достаточно).
Тут ведь главное, что "поиск улучшится".
С этим как раз не очень понятно.
Цель то ведь какая - чтобы страницы в вебе генерились машинами для машин.
То есть либо страниц будет очень много - гораздо больше чем сейчас.
Либо будет одна большая страница (типа robots.semweb)
содержимого базы данных с перечнем указателей на другие страницы (возможно динамические) для робота - куда идти.
И что такое прорыв?
Возможность общаться (закупать автоматом подешевле при наличии)
между собой "домашнему холодильнику" и "магазину продуктов" при этом
выглядит вполне реализуемой.
IMHO повлияет и очень сильно, причем учитывая планы Microsoft,
возможно достаточно скоро.
Только повлияет не совсем так, или совсем не так, как сейчас пишут.
Конечно, когда сейчас западные (и не только) люди пишут про онтологии - это чаще всего "новое знамя" в борьбе за ...
Однако, уже СЕЙЧАС все сходятся в простейших онтологиях:
дата, автор, место (адрес), цена товара и т.п.
Дело в том, что даже такие простые вещи могут сильно изменить Веб.
Пресловутый "ближайший магазин, где продается требуемый товар".
Сейчас многие стараются поддерживать списки географической привязки
(в лучшем виде с локализацией до города), которые неполны, неточны, неактуальны и т.п. Тут же этих проблем не будет (м.б. будут другие).
Или, например, легко считывать цену товара, а не писать сложные программы ее извлечения по тексту (найти прайс-лист, разобрать, классифицировать). В сочетании с датой прайса - чем плохо?
В общем виде, речь идет о дополнительной информации, которая позволит устанавливать дополнительные связи помимо явных ссылок, в том числе на централизованные базы данных.
Сейчас уже видны сферы применения:
свободный обмен структурированной информацией между большими ("солидными" - не жульничаюшими, авторизованными) игроками.
Исследование более сложных онтологий здесь (что бы не писали грантопросители) - это на самом деле поиск границы того, что будет использоваться или не будет нужно, или будет нужно в узких сообществах.
Собственно, мой вопрос/интерес в том же - есть ли что нибудь еще нужное, кроме поиска ближайшего магазина и лучших цен.
Например, что нужно указывать о товаре (на странице и в запросе), чтобы можно было подобрать лучший для пользователя?
Немного демагогии.
ЧТо такое реальные пользователи?
IMHO это такие РЕАЛЬНЫЕ пацаны, которые платят деньги или готовы платить, но которые ХОТЯТ знать за что платят - то есть должны иметь возможность сравнить с другими предложениями.
Тут на форуме уже не раз писалось, что для нахождения лучшего предложения, когда надо что-то купить, сейчас рекомендуют прыгать сразу на страницу 5-ую выдачи. Как-то это с трудом вяжется с основной функцией нынешних поисковых машин.
Специализированные сайты по товарам обычно набиты всяким интерактивом для уточнения запроса - для меня это значит, что для реальных пользователей текущий стандартный интерфейс ПМ не очень подходит -
и чем дальше, тем больше.
Может в самом начале озадачиться вопросом - зачем делать
новый поисковик локальный/корпоративный/глобальный?
Если есть ответ на этот вопрос - что-то новое, нужное,
чего не было у других - тогда вопроса "Что следует делать дальше?"
не возникает.
При этом, по большому счету и программирование в названном комплекте вторично - все можно собрать из имеющихся и легко доступных компонентов.
Если же хочется просто попрактиковаться в программировании - опять же нет такого вопроса...
Я думаю, что никто не ответил потому, что если
человек употребляет слова типа "лема" или "хещ",
или интересуется где взять словарь для лемматизации,
то ему сначала стоит еще немного "прочитать множество информации",
в том числе и на данном форуме.
"истина где-то в деталях..."
но при чем тогда синтаксис?
Пример, который я привел, должен бы "выпячиваться" по запросу
"правительство", так как оно подлежащее, а там где "пр-во"
дополнение - должен "гаситься".
И именно первое неправильно.
По моему мнению, в общей постановке - никак.
Есть мнения - см. например, RCO, что, мол, подлежащее с большим весом,
а обстоятельства и дополнения с вдвое меньшим.
Это может работать, и то возможно?, только для очень коротких текстов.
Например, для правовых актов "Правительство установило размер ставки налога на пользование чего-нибудь..." правительство в таких документах не релевантно,
а важна имено ставка налога, налог на пользование чего-нибудь и т.п.
Кроме того, не в коротком тексте то , что было подлежащим побывает и дополнением и т.п, и наоборот. Поэтому это не будет отличаться от обычной частотности.
Задачи поиска, где полезен синтаксис, надо еще поискать и правильно поставить.