bvd

Рейтинг
42
Регистрация
02.09.2002
Как писал Зверь
Вопрос не имеет смысла, ...

Именно так!

Чтобы ответить на вопрос "что лучше" надо иметь целевую функцию.

Если контент хороший и целевая функция - привлечение спосоров

(которые могут принести поболее любой рекламы) - лучше один сайт.

Для хорошего сайта поднимут квоту индексирования.

Если контент разделИм - спосоры разные - разделить.

Если целевая функция - отбивка рекламы - другие стратегии...

Как писал Miha Kuzmin
Мда...
1. А что можно сделать (и главное - зачем) ? Ихний домен что-ли ???
2. Вас это так задевает ? :)

Меня задевает когда на неплохое дело (консультирование в получении грантов ЕС) замазывается.

И я думаю эти люди смогут сделать то, чего захотят ...

оказывается, интереснее.

Эта организация (Институт ...) от этого домена отказалась,

сейчас у них другой.

Но осталось много ссылок с приличных сайтов ведущих на старое место.

Сейчас они будут пытаться выяснять, что там на самом деле происходит, и что можно сделать.

Как писал wmmaker
Штудируя в очередной раз свои запросы в яндексе, наткнулся еще недели 2 назад по запросу Порно :D на сайт такого типа http://www.iopsys.ru/
подумал мало ли...подождем след. апдейтов

Этот сайт принадлежит вполне нормальной организации, которая никогда не будет такими вещами заниматься.

Насколько я знаю, они сейчас в процессе переезда.

При попытке входа - выдается всякое интересное содержание.

По-видимому - это взлом.

Я отзвонюсь - может быть поправят.

Как писал MaxGubin
Опять же строго IMHO, но структурированное представление информации, например, о ценах по-моему не очень вяжется с бытующим понятием "онтология" при всей ее расплывчатости.

Никто и не спорит об этом.

Мой вопрос прежний - есть ли реально в массовом (для массового

пользователя) поиске задачи, которые могут решаться лучше с использованием доп.разметки, как бы она не называлась.

Есть ли такие задачи в ограниченных стабильных сообществах.

Как писал MaxGubin
Кроме того, практически все поисковики это сейчас уже умеют. Ну и существуют специализированные системы типа price.ru и т.п. Я сам еще в "довебовскую" эпоху занимался такой системой вытаскивания информации о недвижимости из объявлений. Никто никогда не объявлял это "онтологиями","семантикой" и т.д.

Умеют но плохо, и проблем очень много. Когда требуется качество,

сажают девочек на ручной ввод. Пока этого достаточно.

Конечно, то что умеют делать сейчас - это очень простые вещи

(раньше называлось information extraction).

Здесь две разных задачи:

1) уже то, что умеют, может быть очень полезно

2) действительно, нечетко определена граница (и здесь очень много спекуляций) что смогут сделать

Как писал MaxGubin
товарищи, которые ожидают, что поисковик будет разумен как эксперт во всех областях, с помощью примитивных средств WordNet или синтаксического анализа с использованием онтологического словаря профессора Х - пользователи только в умах академических исследователей. Но, как правило, когда написано "семантика и онтология", то подразумеваются вторые.

Я не думаю, что "поисковик будет разумен как эксперт во всех областях".

Однако, когда ничего из стандартного набора не помогает, могут

помочь даже и приведенные Вами примеры технологий.

Кроме того, если можно заранее - по разметке - знать предметную область текста, то уровень автоматической обработки можно поднять,

привлекая специализированные лингвистические ресурсы.

Уверяю, что достаточно большие предметные области "покрываются в ноль" за вполне разумные время-деньги (конечно не все, но и этого может быть достаточно).

Как писал MaxGubin
Будет так - все в мета начнут закладывать географию и поисковики начнут проверять. Это улучшит поиск ближайших магазинов. Почти сразу начнется киберспам и дополнительные проверки поисковиками этой информации по другим критериям, что приведет к тому, что поиск улучшится, но шум все равно будет и т.д.

Тут ведь главное, что "поиск улучшится".

Как писал MaxGubin
Прорывов глобально не будет.

С этим как раз не очень понятно.

Цель то ведь какая - чтобы страницы в вебе генерились машинами для машин.

То есть либо страниц будет очень много - гораздо больше чем сейчас.

Либо будет одна большая страница (типа robots.semweb)

содержимого базы данных с перечнем указателей на другие страницы (возможно динамические) для робота - куда идти.

И что такое прорыв?

Возможность общаться (закупать автоматом подешевле при наличии)

между собой "домашнему холодильнику" и "магазину продуктов" при этом

выглядит вполне реализуемой.

Как писал MaxGubin
IMHO никак не повлияет. Не меньшие суммы регулярно тратятся на, например, разработку стандартов по оформлению документов и классификаторов, но никто не ожидает, что завтра произойдет качественное изменение в этой области.
Главная проблема всех этих онтологических изысканий - они бесконечно далеки от практики работы реальных пользователей информации и переполнены демагогией.

IMHO повлияет и очень сильно, причем учитывая планы Microsoft,

возможно достаточно скоро.

Только повлияет не совсем так, или совсем не так, как сейчас пишут.

Конечно, когда сейчас западные (и не только) люди пишут про онтологии - это чаще всего "новое знамя" в борьбе за ...

Однако, уже СЕЙЧАС все сходятся в простейших онтологиях:

дата, автор, место (адрес), цена товара и т.п.

Дело в том, что даже такие простые вещи могут сильно изменить Веб.

Пресловутый "ближайший магазин, где продается требуемый товар".

Сейчас многие стараются поддерживать списки географической привязки

(в лучшем виде с локализацией до города), которые неполны, неточны, неактуальны и т.п. Тут же этих проблем не будет (м.б. будут другие).

Или, например, легко считывать цену товара, а не писать сложные программы ее извлечения по тексту (найти прайс-лист, разобрать, классифицировать). В сочетании с датой прайса - чем плохо?

В общем виде, речь идет о дополнительной информации, которая позволит устанавливать дополнительные связи помимо явных ссылок, в том числе на централизованные базы данных.

Сейчас уже видны сферы применения:

свободный обмен структурированной информацией между большими ("солидными" - не жульничаюшими, авторизованными) игроками.

Исследование более сложных онтологий здесь (что бы не писали грантопросители) - это на самом деле поиск границы того, что будет использоваться или не будет нужно, или будет нужно в узких сообществах.

Собственно, мой вопрос/интерес в том же - есть ли что нибудь еще нужное, кроме поиска ближайшего магазина и лучших цен.

Например, что нужно указывать о товаре (на странице и в запросе), чтобы можно было подобрать лучший для пользователя?

Как писал MaxGubin
... они бесконечно далеки от практики работы реальных пользователей информации и переполнены демагогией.

Немного демагогии.

ЧТо такое реальные пользователи?

IMHO это такие РЕАЛЬНЫЕ пацаны, которые платят деньги или готовы платить, но которые ХОТЯТ знать за что платят - то есть должны иметь возможность сравнить с другими предложениями.

Тут на форуме уже не раз писалось, что для нахождения лучшего предложения, когда надо что-то купить, сейчас рекомендуют прыгать сразу на страницу 5-ую выдачи. Как-то это с трудом вяжется с основной функцией нынешних поисковых машин.

Специализированные сайты по товарам обычно набиты всяким интерактивом для уточнения запроса - для меня это значит, что для реальных пользователей текущий стандартный интерфейс ПМ не очень подходит -

и чем дальше, тем больше.

Как писал Ken
Что следует делать дальше?

Может в самом начале озадачиться вопросом - зачем делать

новый поисковик локальный/корпоративный/глобальный?

Если есть ответ на этот вопрос - что-то новое, нужное,

чего не было у других - тогда вопроса "Что следует делать дальше?"

не возникает.

При этом, по большому счету и программирование в названном комплекте вторично - все можно собрать из имеющихся и легко доступных компонентов.

Если же хочется просто попрактиковаться в программировании - опять же нет такого вопроса...

Как писал Deoden
Не ответил не кто, потому что не верит ...

Я думаю, что никто не ответил потому, что если

человек употребляет слова типа "лема" или "хещ",

или интересуется где взять словарь для лемматизации,

то ему сначала стоит еще немного "прочитать множество информации",

в том числе и на данном форуме.

"истина где-то в деталях..."

Как писал icreator


помоему всё просто - сам пользователь определяет что ему "релевантно". А говоря по-русски он создаёт соответствующий вопрос на ЕЯ языке: "Какова ставка налога на ...". И тогда ему действительно правительство побоку :)

но при чем тогда синтаксис?

Пример, который я привел, должен бы "выпячиваться" по запросу

"правительство", так как оно подлежащее, а там где "пр-во"

дополнение - должен "гаситься".

И именно первое неправильно.

Как писал viellsky
Прошу у всех прощения, но я все-таки еще раз заострю внимание на том вопросе, который задавал:

Каким образом использовать результаты синтаксического анализа в поисковой системе?

По моему мнению, в общей постановке - никак.

Есть мнения - см. например, RCO, что, мол, подлежащее с большим весом,

а обстоятельства и дополнения с вдвое меньшим.

Это может работать, и то возможно?, только для очень коротких текстов.

Например, для правовых актов "Правительство установило размер ставки налога на пользование чего-нибудь..." правительство в таких документах не релевантно,

а важна имено ставка налога, налог на пользование чего-нибудь и т.п.

Кроме того, не в коротком тексте то , что было подлежащим побывает и дополнением и т.п, и наоборот. Поэтому это не будет отличаться от обычной частотности.

Задачи поиска, где полезен синтаксис, надо еще поискать и правильно поставить.

Всего: 133