Замечу в скобках, что "самые редкие запросы" (как зачастую самые точные) пригоняют на сайт самых мотивированных посетителей, а интеграл по ним часто больше интегральной суммы всех частых запросов.
Кроме того, по редким запросам как раз получаются самые точные оценки и посещаемости/трафика, и видимости сайта, и объёма индексов поисковиков и так далее.
У нас полным-полно фирм, которые занимаются обработкой естественного языка. В том числе и моя компания - в частности, мы сейчас заканчиваем фильтр спама для Лаборатории Касперского. А также делаем Виртуального собеседника и пр.
Одних русских поисковиков - десяток. Вон Дима Крюков на свои кровные запустил Туртель. Значит, верит в будущее отечественной прикладной лингвистики!
ПроМТ, Арсенал продают лучшие в мире русские машинные переводчики, для кучи языковых пар, в том числе и без русского языка. В АББИ сделали отличную распознавалку, делают машинный переводчик. Адвантис продаёт фразеологический перевод Ретранс.
На рынке полно электронных словарей (МультиЛекс, Лингво, ЭТС, пр.).
Рубрикон выставляет 50 энциклопедий с морфологизованной искалкой.
В Оракл давно уж встроен русский модуль полнотекстового поиска. Делал лингвистику для него Коваленко, а продаёт его Гарант. В Информикс русский Datablade встраивала РедЛаб. И в MS SQL Server - нами же встроен русский поиск, сходите к МедиаЛингве, почитайте на сайте.
В MS Office с 1994 года крутится моя морфология и стилистический корректор с переносами и тезаурусом.
В Экскалибур был встроен Русский семантический модуль (тоже мы делали). РБК русифицирует корпоративную Альттависту.
Ну и так далее.
А вы говорите, нет инвестиций, тишина и так далее. Люди работают.
Труды последнего, июньского "Диалога" - более 1000 страниц!
Почитайте об этих коллективах на http://www.dialog-21.ru, там же можете на еженедельный дайджест по прикладной лингвистике подписаться.
Господа, релевантность лучше всего переводится на русский язык как "соответствие". Вот и всё.
Соответствующий запросу документ и так далее. Русский язык позволяет выразить всё, что угодно, удобным словом.
Если хочется употреблять отдельно от существительного "документ", можно говорить "качество поиска".
Ещё один термин, вполне подходящий для кухонных дискуссий - просто "точность". Его вполне достаточно. Точный поиск, точная машина, точные результаты поиска. Звучит нормально.
В общем смысле релевантность поиска Интернет-машины - это не что иное, как точность.
Полнота же - это качество выборки по возможности ВСЕХ соответствующих документов. Повышать полноту - дело неблагодарное, Дмитрий. Никто не оценит. Слишком их там много сидит, соответствующих, и полноте никто не рад.
Дмитрий, вам может быть интересно прочесть мою статью 1998 года "Национальные особенности поисковых систем", где даётся пояснение понятий точности и полноты:
http://www.osp.ru/school/2000/01/012.htm
Есть и ещё одна статья о том же, только ей невежественный редактор приклеил самовольно собственное и притом неграмотное название:
http://astu.secna.ru/russian/search/tips.htm
(но тут вообще интересно то, что это дикая копия - кто там такие и почему публикуют, я не знаю).
Сильно не впечатляет качество редакторской подготовки материалов в Компьютерре. Но это их бизнес, а не наш, так что какое нам дело...
Ну, для отладки методов оптимизации платная перерегистрация влетит в копеечку. Оптимизаторы, особенно дешёвые, живут в нише 50-долларовой оптимизации, средняя покупка не больше 150-200 долларов, насколько я могу судить. Где уж там отлаживаться за деньги.
А вот если и так знаешь, что делать, и потом нужно только зарегистрировать новые страницы, тогда - да, заплатить можно.
Я думаю, что всякий продукт, который нужно объяснять клиенту, обречён на провал или вялое существование.
У нас было слишком много опыта по продаже таких продуктов из области искуственного интеллекта. Если долго объясняешь, в чём там полезность, клиент уходит и всё.
Продукт должен быть легко объясняем одной фразой. Кроме того, если подобный продукт уже есть на рынке, то тут уже отличие вашего продукта от конкуретнов должно быть объясняемо одной фразой, причём не длиннее слов 8-10.
Скажем, просто "поиск на сайте" легко объяснить одной фразой (достаточно названия и платформы), а "осмысленный поиск" - здесь придётся долго и мучительно объяснять, чем он лучше, чем просто поиск.
Увы, клиент на это не клюнет - поиск по сайту запускают не более 5-10% посетителей, и качество поиска не определяет их довольство сайтом Ну, может быть, определяет процентов на 5, то есть мы получаем вес этой "фичи" равным 0,05*0,05=0,0025, то есть 1/400.
Будут в это вкладывать деньги, если есть ещё дизайн, новости нужно вести, новый каталог нужно выложить, в раскрутку нужно вложиться? Нет, конечно.
А вот просто наличие поиска - требуется. Но к нему другие требования -лёгкость установки и поддержки, потому что тут определяет требования вебмастер.
Я продавал поиск для сайтов(Следопыт), поэтому хорошо знаю этот рынок. Он довольно пуст - есть бесплатные прилады, есть Яндекс. И то и другое - не для простого вебмастера. Ни за что не установишь.
Эту нишу можно заполнить удобным и дешёвым продуктом, но не за счёт "осмысленности", в которую всё равно никто не поверит.
Осмысленный же поиск нужно превращать либо в корпоративный продукт (а также для МВД и ФСБ), либо делать ещё один Интернет-поисковик.
Я бы платил, поскольку мы часто рекомендуем клиентам изменить сайт, который уже проиндексирован. Нам нужна именно быстрая и гарантированная индексация новых страниц сайта. Сколько - сразу не скажешь, потому что неясно, во что обойдётся тот самый клик.
Думаю, от 10 центов до полдоллара за страницу - наш клиент сможет перенести. А для Яндекса это серьёзные деньги, если раскрутить услугу.
Ну, и быстрая полная переиндексация сайта также нужна. За это больше 50-100 долларов платить обидно.
Как видим из интервью стековской пиарщицы Лены, машинка-то у Стека далеко не дешёвая. Прямо скажем, товарищи, дорогая. Нехорошо это. Наши люди на такси в булочную не ездят.
Разве что подкрутили по привычке слегка цифру расходов - тоже ведь PR-приём в условиях инвестируемого проекта.
Хотя дешевизна - основной пафос не только бумаг Крюкова, но и дискуссий в данном форуме:
"...Как сообщают "Финансовые Известия", за счет технологических решений компания планирует снизить теребования к оборудованию. Это приведет не только к ускорению переиндексации (1-2 дня), но и снижению затрат на поисковик, что позволит довести рентабельность бизнеса с обычных 3-5% до 15%. ..."
Помните, какая рубка там началась - насчитали, что всего-то 10К и нужно и так далее.
А тут 150 килобаксов!!! Это ж какие деньжищи! Сколько коньяка, ноутбуков и мобильников можно купить...
Столько денег на технику в поиск мне инвесторы ни разу в Рамблере не дали. Да собственно, столько сейчас не стоит и весь серверный парк под поиском Рамблера, я думаю. Где же та экономия, если сразу дороже Рамблера вышло?
А это ведь не весь Туртель, а только "первая очередь".
Я так понимаю это выражение, что есть там какая-то очередь за деньгами. Есть, наверно, и окошечко, и запись с ночи химическим карандашом на ладони.
А ещё Черепаха предоставляет чат - страница "Запросы сейчас".
Очень удобно. Можно обсуждать качество и количество в реальном времени.
Ewspam!
Ящик у Вас полон, письма приходят обратно.
Игорь.