Примерчик - пожалуйста http://www.yandex.ru/yandsearch?text=%EC%FB%EB%EE+%EA%F3%EF%E8%F2%FC+
Задайте в Яндекс запрос - МЫЛО КУПИТЬ и удивляйтесь.
Омонимия сильная вещь. Ее статистикой не побороть.
Здесь нужна лингвистика. См. детали на www.asknet.ru
Вопрос поставлен крайне неопределенно. Поэтому и ответы такие. Для того чтобы оценить стоимость поисковика, нужно ответить на ряд вопросов:
- лингвистические функции поисковика (только ключевые слова или еще и семантика) ;
- технические требования (скорость индексации, объем интексируемых текстов, интенсивность потока запросов пользователей и т.п.).
Так как ответы на эти вопросы не определены, то могу сказать, что стоимость разработки поисковика может составить:
- практически около нуля (см. статью как сделать поисковик средствами windows - http://www.lghost.ru/lib/samag/content/2004/samag_08_21/samag8(21)-61-65.pdf );
- несколько тысяч у.е. (на базе открытых проектов) при использовании общедоступных исходных кодов стандартных поисковиков;
- нескольких миллионов у.е. - именно во столько обошлась разработка вопросно-ответной поисковой системы www.asknet.ru .
Здесь как в гран-при "формулы 1" для того чтобы получить небольшое преимущество надо вложить кучу денег. Правдо без этого непонятно зачем тогда вообще создавать стандартный поисковик. Пользователи на него не пойдут. Иное дело, если будут новые функции, фичи, которых нет в стандартных поисковиках. Например, как в www.asknet.ru - фича: задаете вопрос (типа - когда родился Пушкин) и получаете ответ (в 1799 году). Для прикола сравните что дает Яндекс при вводе запроса когда родился Пушкин.
Так что для ответа на ваш вопрос надо определиться с целью создания системы, ее функциями и ТТХ изделия.
Сказки надо было читать. Вот отрывок из одной из них, который есть в интернете:
- Мы отправляемся открывать Северный Полюс.
- Понятно, - кивнул Винни-Пух. - А что такое, Северный Полюс?
- Это такое место, которое открывают, - небрежно бросил Кристофер Робин
А что касается достоверности информации, то ограничте поиск энциклопедиями и получите энциклопедический ответ.
Нет ничего проще. Словарная подсистема вопросно - ответного поисковика AskNet была построена на базе открытых источников (См. http://www.asknet.ru/Technology/Tdictionary.htm ) . Могу посоветовать обратить ваше внимание на словарь WordNet и на Microsoft Word. В обоих есть синонимы, API детально описан как их извлекать. Остальное дело техники ...;)
Согласен, рекламодатели идут в первую очередь туда, где имеется раскрученная площадка. Однако в сторону новых сервисов они тоже присматриваются. Иначе Гугл бы не состоялся.
Не совсем так. Трафик нужен провайдерам, если за него платят. Рекламодатели же, наоборот, часто бывают недовольны когда трафик есть, а результата нет. Проблему "скликивания" (click froud) еще никто не отменял (is not it?). Рекламодателям кроме раскрученной площадки нужны еще и качественные сервисы. А в этом направлении можно улучшить результаты.
Отдельные слова - ничем. Однако в моих примерах не отдельные слова, а синтаксически связные конструкции - словосочетания, которые имеют ОДНОЗНАЧНО трактуемую семантику. Понятно, что "шина компьютера" и "радиатор процессора" относятся к компьютерной тематике. Однако для того, чтобы поисковая система это поняла, она должна уметь выявлять типы связей слов в словосочетаниях (проводить синтаксический анализ), а также уметь соотносить их с соответствующей семантической категорией.
Проверим этот автофокус. Выбираем в статиские Яндекса высокочастотный запрос. Например, - "металлические двери" с частотой показа 21609 в месяц. Я думаю это достаточная статистика. Вводим его в Яндекс и получаем в выдаче Яндекс.Директ не только стальные двери, но и пластиковые двери, деревянные двери, межкомнатные двери.
В целом, конечно, все более - менее нормально, но можно сделать лучше.
Спасибо за сравнение. Конкурентных преимуществ с точки зрения коммерческой отдачи перед Яндексом, да и перед Webalta на данном этапе у asknet.ru конечно нет и быть не может. Первые - это более раскрученные площадки. Однако технологические преимущества asknet.ru в части вопросно - ответного поиска имеются.
Вообщето не в этом дело, а в том, что резервы для улучшения качества контекстной рекламы в частности и поиска в целом имеются.
Огромное всем СПАСИБО за высказанные пожелания и предложения. Попробую на них кратко ответить.
1. Сообщение разместил так как наболело качество поиска существующих поисковиков в общем и качество контекстной рекламы в частности.
2. Действительно жаль, что об asknet.ru пока что мало известно. Но это, наверное, пройдет :).
3. На asknet.ru попытаетмся сделать сервис контекстной рекламы без данных глюков (см. выше), однако для реализации проекта нужны ресурсы. При существующем положении примерно к концу года выйдет наш сервис контекстной рекламы. Сервисы контекстной рекламы сторонних производителей и т.п. (" ...гугл/бегун/яндекс ...") размещать не собирались у себя на сайте.
4. Насчет "приведены маргинальные примеры" могу сообщить что наиболее плохие результаты контектной рекламы существующие поисковики выдают на тех вопросах, в которых имеется семантическая неоднозначность терминов ("замок", "коса", "мыло" и т.п.), однако и на "не маргинальных" запросах не все хорошо.
5. Насчет "итальянская кухня" - каков некорректный запрос, таков и ответ. Что имелось в виду мебель или еда непонятно даже человеку, а не то что поисковику. Пользователей приучили в качестве запроса вводить только ключевые слова. При этом говорят, что пользователи мыслят словами. Нет, дорогие разработчики поисковиков, пользователи мыслят семантическими категориями и отношениями между ними. Во это и надо реализовывать в поисковиках. Введите более конкретный запрос в asknet.ru, например - когда в москве открылась итальянская кухня. Получите ответы такого плана - ...Ресторан-гастрономия традиционной итальянской кухни "il Tartufo" ("Трюфель") открылся 25 июня 2005 г. в центре Москвы.
6. AQUA в тайтле означает Analytic QUery Qnswer sysytem. Однако это отдаленная перспектива.
Спасибо Arana, сайт подправлен, отдельное спасибо за поддержку SellingFeis.
Замечательный вопрос. :) На него сможет ответить не только человек, но и железяка - компьютер. Важно лишь чтобы эта железяка поняла вопрос. Спросите об этом вопросно - ответную поисковую систему AskNet.ru и получите кучу достаточно неплохих ответов. Вот линк на этот вопрос http://asknet.ru/webserver/index_lgs.aspx?lgs_q=%d0%9a%d0%b0%d0%ba%20%d0%b2%d1%8b%d0%b2%d0%b5%d1%81%d1%82%d0%b8%20%d1%81%d0%b2%d0%be%d0%b9%20%d1%81%d0%b0%d0%b9%d1%82%20%d0%bd%d0%b0%20%d0%bf%d0%b5%d1%80%d0%b2%d1%8b%d1%85%20%d1%81%d1%82%d1%80%d0%b0%d0%bd%d0%b8%d1%86%d0%b0%d1%85%20%d0%bf%d0%be%d0%b8%d1%81%d0%ba%d0%be%d0%b2%d1%8b%d1%85%20%d1%81%d0%b8%d1%81%d1%82%d0%b5%d0%bc
Удачи.
Немного не по теме, но также интересный сайт. Предлагается пользователям вводить объекты, отношения и правила продукции для обучения робота. Классическая задача настройки экспертной системы и ее подсистемы логического вывода. В отличие от этого робота в поисковой системе AskNet.ru объекты и отношения уже заранее введены в словарную подсистему (части речи), а правила логического вывода также заранее введены в базы знаний синтаксического и семантического анализаторов. Кроме того, в asknet используется самообучение системы. Это было бы хорошо применить и для чат-робота. Смысл самообучения в том, что на базе известных объектов, отношений и правил АВТОМАТИЧЕСКИ формируются новые. Однако предложения текстов для обучения должны быть лингвистически корректными и семантически достоверными.
Новый поисковик, страниц наиндексил мало. Мощность серверов гораздо ниже Яндекса. Отсюда и результаты. Это все неинтересно, так как объяснимо и предсказуемо. Интересно совсем другое gogo.ru индексирует и ищет также по своему сервису вопросов и ответов пользователей. Поэтому можно будет поискать ответы пользователей на вопросы опять же пользователей. Однако более интересен в этом плане сервис вопросно-ответной поисковой системы на сайте www.asknet.ru Прикольно. Задаешь вопросы, а тебе отвечает компьютер, а не пользователи. Например, вчера развлекался - спрашиваю у AskNet "как обезьяна стала человеком?" (так прямо и набрал запрос), так эта asknet.ru отвечает мне - "обезьяна стала человеком сменив мартышкин труд на сизифов". И так далее в таком же духе. Думаю такую бы штуку прикрутить к другим поисковикам, было бы интересно и полезно.