Спасибо, Антон, за замечательный отзыв!
Давайте попробуем разобрать "спор" Яндекс-Нейрон по предложенным тобой параметрам.
1. Релевантность.
По методике Ашманова-Харина, она определяется как "полнота-точность" при этом Игорь пишет: "Нужно заметить, что релевантность относится к смыслу документа и к смыслу запроса (не всегда очевидному), поэтому релевантность - вещь субъективная и зависит от мнения пользователя о соответствии документа запросу". Там же: "полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных".
Во-первых, минимум, 75% от всех запросов - неочевидные, нечеткие, допускающие различные толкования о том, что же надо пользователю. Это уже видно из частот употребления одно- и двухсловных запросов, а реально однозначно толкуемые запросы - единичные случаи. Поэтому от субъективизма мы не уйдем, даже прикрывшись объективным термином.
Релевантность по предложенной методике - это мера статистической оценки поисковой машины - каковы средние данные по предложенной Н. Хариным выборке запросов. Вопрос о "релевантности" в применении к одному поисковому запросу попросту неприменим: если машина в ответ на запрос "электронная почта" выдаст только ссылки на сайты с бесплатными ящиками, все пользователи сочтут все ссылки релевантными с соответствующим 100%-ным выводом, но ответ будет заведомо "куцый". Об этой проблеме писал В. Поляков, подчеркивая, что главный недостаток сегодняшних поисковых машин - неумение группировать однотипные ответы и выявлять ответы на возможные разные смыслы запроса.
Он утверждает, что его интеллектуальная поисковая машина это сумеет сделать автоматически. Я утверждаю, что с технологией, предлагаемой в Нейроне, данная задача будет решена методом "самоорганизации", и как рынок сегодня "шлифует" товары, точно так же с развитием проекта будет отшлифовано информационное предложение по большинству поисковых запросов, а по наиболее частотным - по всем.
Во-вторых, полнота выбора однотипных документов пользователям абсолютно не важна, если исчерпывающий ответ есть в первом документе - дубликаты уже без надобности. Это прекрасно иллюстрируется и статистикой переходов по первым ссылкам и жесткой борьбой вебмастеров за места в топе.
Поэтому по критерию "релевантность" поисковый робот выиграет в количестве предлагаемых вариантов в ответ на немногие возможные смыслы понимания запроса. Коллективный ответ вебмастеров-экспертов выиграет, как это ни странно звучит - в объективности ответа и полноте понимания запроса.
2. Актуальность.
Опять термин без границ применимости. Пройтись по зарегистрированным адресам роботом и удалить автоматически Error404 большой сложности не представляет и будет сделано (если доживу, конечно, до победы «нейронного труда»).
Если же понимать слово «актуальность» в смысле «своевременность, значимость в данный момент», то мы снова возвращаемся к проблемам «соответствия документа запросу». Запрос «новости» и ответ «лента ру» - актуальная пара. И год назад она была актуальной. Это очень частотный запрос и для таких типов запросов нет проблем сделать вечно актуальную ссылку, которая будет работать до тех пор, пока актуален сам сайт. Наоборот – не надо беспокоиться о постоянном переиндексировании.
А вот с запросами «на злобу дня», типа «последний герой новости», действительно, проблемы – они слишком быстро возникают и так же быстро сходят на нет, поэтому регистрить их, особенно сегодня, смысла нет. Поэтому здесь результаты сравнения технологий будут тоже предсказуемы: по запросам, формулировки которых не привязаны к текущей дате или событию, Нейрон (сообщество вебмастеров-рекламистов-экспертов) будет отвечать гораздо полнее. По сиюминутным запросам – вообще не будет отвечать.
3. Объективность.
Ты, Антон, привел очень интересный и правильный пример. Запрос «вино», ответ «Энциклопедия вин», на сайте одна статья о трех бокалах с призывом их купить со скидкой. И дал название этой технике. В моем описании возможных примеров спама системы - http://neiron.sema.ru/index.sema?a=articles&pid=1&id=10 - нет этого критерия. Сейчас сделаю, спасибо.
А для борьбы с необъективностью и другими спам-техниками у Нейрона возможностей не меньше, чем в Яндексе. Причем Яндексу это приходится делать за собственный счет, а в механизме самоочистки Нейрона бюджет таких мероприятий перекладывается на самого спамера. Принцип крайне простой: за гостевые ссылки система не отвечает, а за каждый авторизованный – ответственность как личная (эксперта), так и коллективная (рекламного агентства).
4. Достоверность.
Совершенно верно, Антон! Именно этики и репутации. Более того, я считаю, что рекламные агентства будут очень серьезно относиться к тому, чтобы к их «знакам качества», гарантирующим точный ответ на поставленный в поисковой системе вопрос у поисковика претензий не было.
Вы представьте, что начнет твориться на рекламном рынке, если сейчас заменить схему трех каталожных ссылок Яндекса, или хотя бы то место, где никак не раскрутится Директ, на схему Нейрона. Завтра на каждом б-м серьезном сайте будут «висеть» по два эксперта-рекламиста, обдумывая, как лучше, точнее, эффективнее, привлекательнее подать свои ответы и анализировать сотни реальных, даже низкочастотных запросов на предмет их «тайных смыслов».
Тогда от понятия «релевантности» мы просто перейдем к другой постановке вопроса, а - что ДОЛЖНО ВЫДАВАТЬСЯ в ответ на тот или иной запрос? Это типичный ответ не поисковой, а уже экспертной системы.
Убедил?.. :0)
P.S. Кстати, вот еще одна маленькая шутка и техника рекламы сайта. Запрос – греевский. http://217.23.136.49/queryres.asp?text_qry=%E3%E5%EC%EE%F0%F0%EE%E9&auto_sel=on Как там с полнотой смысла, основные проблемы выявлены? А ведь все ссылки – на разные страницы одного и того же сайта. 10 минут работы заняло, запрос – тоже довольно частотный, заболевание, говорят, распространенное.
Кстати, вот еще весьма забавный поисковый запрос и ответы на него. Это не электронная почта, здесь, по идее, и версий может быть больше и тема... хм, "проще". На первый взгляд.
For men only - http://217.23.136.49/queryres.asp?auto_sel=on&text_qry=%F5%F3%E9
[This message has been edited by andre (edited 20-12-2001).]
Саша, спасибо за отзыв! Насколько приятно предметное обсуждение вопроса. Насчет оформления результатов я вполне согласен - твоя аннотация "глоссария" намного лучше. А вот дальше - весьма проблематичные утверждения.
Что такое "ни один человек при необходимости декодировать письмо" и "практически наверняка тот, кто ищет бесплатный почтовый ящик"?.. Основываясь на уверенности, что пользователи с запросом "ЭП" искали совсем другое, ты из предложенных 15 ссылок 10 отнес к "нерелевантным". А я их разместил, думая, что они самым прямым образом относятся к электронной почте. Таким образом проблема ставится так: что могут иметь в виду посетители, задавая вопрос "электронная почта"?
Тебе показалось, что они могут искать информацию по проблемам поиска людей по e-mail, списки адресов для спамеров и рефераты по данной теме. Но это даже не пришло в голову мне. Имеем двух человек, и два набора мнений. Я свое видение вопроса высказал, как сумел, зарегистрировав ссылки и написав аннотации. Если ты сделаешь то же самое (самым простым и быстрым образом это можно сделать, нажав ссылку "добавить ответ" наверху результатов поиска) система будет отвечать уже за двоих. Может, кто-нибудь из участников форума добавит инфу про "технологию Zap Zone Network" и "технологию Everyone", и свое видение вопроса. Это уже будет "за троих".
Теперь скажи, много ли после этого останется нетронутых тем, которые, по нашему "тройственному" мнению, относятся к тематике электронной почты? А если и останутся, это увидит четвертый и добавит. И с каждым новым видением ответ будет полнее.
Что получит посетитель, увидев такую выборку? Как минимум, впечатление, что ЭП - очень большой и интересный вопрос, и каждое из его направлений можно изучать отдельно.
Благодаря твоему отзыву, я добавил в ответы темы о первых шагах в мнтернете, почтовых вирусах и спаме. О рефератах, поиске людей и списках адресов для спамеров удовлетворительных ссылок не нашел, так как плохо понимаю эти проблемы. Добавь ты, если знаешь ответ. Пусть любой добавит тот ответ, который считает нужным и полезным. И пусть потом кто-нибудь найдет пользователя, которому по данному запросу нужно было что-то третье.
Да, это типичное "самоуправление". Точнее, пока всего лишь "самодобавление". Управление понадобится тогда, когда начнут добавлять ответы типа "ребята, а ну ее, эту электронную почту, давайте лучше на Яндекс-Пиво пойдем, там халяву раздают".
Саш, и еще объясни мне, пожалуйста, что ты имеешь в виду здесь: "Но только поведение пользователей может сказать, лучше ли они для конкретного запроса или нет"? В Нейроне речь всегда идет об ответах именно на конкретный запрос.
P.S. Буду признателен всем за открытую полемику, так как тема, надеюсь, волнует не только нас двоих.
Запросов - вагон! Ответов пока нет.
А на вопрос все ж никто не ответил. Еще раз прошу: есть ли хоть один навигационный сервис, который на запрос "электронная почта" выдает лучшие результаты?
Я туда добавил еще четыре ссылки: о e-mail маркетинге, смайликах, жопариках и хуяликах. А таже отметил вопросы, ответить на которые не смог. В каталоге Ракс по этому же запросу выдается два раздела, из которых ясно, что существует "технология Zap Zone Network" и "технология Everyone". Что это такое - сходу обнаружить не удалось. Буду благодарен за ссылку (или сами добавьте ответ).
С Профессором не во всем согласен. Первый абзац иллюстрирует понятную мысль - чем "уже" тема страницы или сайта, чем точнее запрос и ответ на него, тем "целевее" аудитория - естественно, выше таргетинг, выше цена на рекламу.
Второй абзац уже не совсем ясен - идею "делать контент" давным-давно выдвинул Артемий Лебедев, типа "хочешь продавать телевизоры - делай портал про телевизоры". Актуальна она и до сих пор. Именно потому, что кроме порталостроительства и обычного давления массой страниц другого безопасного и дающего результаты метода в сети нет.
Но, блин, для того, чтобы поисковик внятно ответил на вопрос, например, "как перекодировать нечитаемое письмо", зачем же портал создавать?.. :0)
Честно говоря, это больше либо на хулиганство смахивает, либо на "отработку технологии" - по запросу "п...да" картина примерно та же.
Наверное, пора уже ждать нормальных ссылок по нормальным запросам, но с критерием "найден по ссылке" и цитатами типа "дрочить кредитную карту".
Грустно, господа.
А такая?.. - http://217.23.136.49/queryres.asp?auto_sel=on&text_qry=%E6%EE%EF%E0
Статистика (взято из Д. Гиканди - кажется, searchposition.com) по страницам - 95% пользователей оседают на первых 30 ссылках, из них 78% - на первых 10.
Вопрос о статистики кликабельности первой десятки необходимо уточнить. Если Demon имел в виду "просто статистику", мол, в среднем первая позиция 35%, вторая 25%, третья... и так далее, то ничего "страшного" нет. Но на основании такой статистики не стоит делать прогнозы посещаемости, тем более - считать номер позиции в десятке каким-то достижением по отношению к ссылкам, находящимися ниже.
Артем, большое спасибо за столь подробный пост о Вашем оценочном анализе первой страницы результатов Яндекса по слову "работа"! Он прекрасно иллюстрирует (не знаю, как это назвать - фактом или гипотезой), что поведение пользователя зависит во-первых, от самого пользователя, во-вторых, от того, что ему предлагается. "Загнать" Артема в формулу несложно :0) - не москвич, не с Украины, не из Челябинска, разбирается в интернете, профессионал, в работе сегодня не нуждается. Выбрал ссылку "Мир профессионалов", остальное сразу отсеял.
Если бы вся аудитория, что задает вопрос "работа", состояла из людей с характеристиками Артема, распределение было бы с сильным креном - 80% на вторую каталожную ссылку, остальное - случайный разброс. Но в посте явно указана вторая возможная категория пользователей - новичков, доверяющих SE. Но вот с обратной функцией, кажется, не совсем верно. Новички из Челябинска, взятые отдельно, "накренят" распределение в сторону 8-й позиции - "Работа в Челябинске", украинцы поднимут частоту 4-й и так далее.
Т.е. для оценки распределения необходимо создать и проверить модель аудитории: сколько новичков "против" опытных, программистов-бухгалтеров-моряков, мужчин-женщин, интересов и т.п. Разбить аудиторию на группы в порядке убывания величины, например, "москвичей" - 50%, "безработных новичков выпускников средних школ" - 30%, "безработных опытных пользователей программистов" - 10% и т.п. Расположив на первой странице десяток ссылок в строгом соответствии с характеристиками первых десяти групп аудитории мы получим результат, описанный Артемом - кликабельность по ссылкам будет убывать в зависимости от позиции. При этом максимальное количество посетителей поисковика остануются удовлетворенными его работой.
Но такая картина сегодня - утопия. И исследования такие еще не проводились, и естественным образом расположить в поисковике десяток ссылок с заданными титулами невозможно. И это только по одному запросу. Попади на существующую страницу на 9-10 позиции страницы "Работа в Санкт-Петербурге" и "Работа жителям Новосибирска" сегодняшнее эмпирическое распределение изменится довольно сильно.
"побочный эффект..."
Ага, только убрав однажды этот "побочный эффект" очень быстро восстановили - релевантность ухудшилась.
А если все же "поиск ведется", то картина вообще забавная: многие сайты с CY гораздо большим, т.е. по определению Яндекса - более релевантным - теряют посетителей только потому, что модератор почему-то пропустил описание с нужными ключевыми слова для конкурентов.
Денег Яндекс за нужное описание, скорее всего, не берет, а отписывается, мол, "все для людей", просто из-за того, что вразумительного сказать нечего.
Веселая ночь! :0) Я видел две крайности, когда клиент присылает список из пары сотен запросов и говорит "Хочу быть в первой десятке по каждому из них".
Второй случай, кажется, здесь, на форуме был, когда кто-то спросил "как попасть на первые места по такому-то слову на Яндексе, Рамблере, Гугле, Апорте, Альтависте... и сколько это стоит" и еще пару поисковиков, вроде, перечислил.
Грамотная постановка задачи и регистрация, наверное, где-то посередине. :0)
Блин, действительно, "уехали" с темы...
Насчет возможностей использовать статистику для настроек баннерной рекламы я абсолютно с Вами, Demon, согласен.
А по поводу спецов есть ведь два подхода. Хочется когда-нибудь здесь увидеть предложение типа
"$... тому, кто возьмется сделать
- то-то
- и то-то." :0)