Предположим, что страничку оценил не один асессор, а десяток. Средняя оценка может оказаться не высшей.
<!--
в действительности, оценки людей — это нечто подверженное случайностям и непредвиденностям (поэтому бестолку вычислять релевантность слишком уж точно).
Шум усредняется и сглаживается на больших выборках, при этом не очень важно: один запрос оценивается одним асессором или многими.
-->
Предположим невообразимое: все асессоры поставили высшую оценку паре <запрос-документ>, но в процессе настройки формула ранжирования может получиться такой, что конкретный документ не будет первым даже на обучающей выборке. А в действительности ПС обрабатывает запросов на три порядка больше, чем оценили ассессоры. И ПС решает задачу ранжирования не одного документа.
Там будет (0 ± 1), если значения оценок {0|1|2|3|4} отрицательные значения оценки вообще не определены, считать ошибку надо иначе... так что увеличивайте количество оценок, поскольку надёжность одной единственной — минимальна. А фонд оплаты труда ограничен.
Оценка асессора — вероятность (всегда < 100%), что документ соответствует запросу с т.з. асессора, хотя так и остаётся неизвестно, что хотел искатель.
Релевантность с т.з. ПС — вероятность (всегда < 100%), что искали именно это...
Криптография пытается превратить сигнал в шум или в почти шуме заметить сигнал. У ПС задача проще...
Это не противоречит http://ru.wikipedia.org/wiki/SVM#.D0.9F.D0.BE.D1.81.D1.82.D0.B0.D0.BD.D0.BE.D0.B2.D0.BA.D0.B0_.D0.B7.D0.B0.D0.B4.D0.B0.D1.87.D0.B8
Покажите где или что именно сказали.
Не волнуйтесь, я совсем не фанат статей... считая их униКальным околоссылочным текстом.
Скольких клиентов эта фраза послала обратно? 🚬 В подписи-то Продвижение по НЧ.
Может, лучше бы ему знать, что пока платит — его сайту делают лучше?
людей-реальных
Понадобится большая куча асессоров
Надёжные результаты именно на больших выборках... людей.
А все асессоры не смогут физически передать все документы, запросы и оценки.
А даже если смогут, то что? Названия факторов уже известны?
Ну они же не для себя выдачу делают, понимая всю свою безнадёжную испорченность.
А ссылки не найдётся на то, что конкретно говорилось, да ещё про волонтёров?
Вроде бы только про отсутствие требований...
Криво формулируете!.. слова говорят о состоянии говорящего.
Вспомните свой единственный СДЛ, особенно стадию написания контента во всех ощущениях...
Есть люди, пишущие, переводящие... вываливающие иногда по мегабайту текстов... делается сайт с хорошо видимым упоминанием их имён, условий, пожеланий, манифестов... и они довольны, что за них сделали то, чего они сами делать не умеют. Уже парочку таких чужих трудов|недоделок превратил в сайты. Но начинал именно с написания текстов...
Алгоритмы контекстно-зависимого аннотирования Яндекса на РОМИП-2008
но там только основные принципы, а к конкретике додумывайте сами, как приложить.
Cумма по всем, у кого счётчик
http://www.liveinternet.ru/cgi-bin/search.cgi?ask=%F0%E5%EC%EE%ED%F2+%EA%E2%E0%F0%F2%E8%F0&test=%F2%E5%F1%F2
конкретному запросу.
Если какой-то набор факторов регулярно встречается и у хороших страниц, и у плохих — он не может быть надёжным, остаётся надеяться, что при достаточной выборке — алго построения модели найдёт другой набор факторов... но если плохие страницы не используют чего-то слишком массово, то и отсеять их модель ранжирования не сможет... при ограниченной выборке запросов.
Может быть ещё и учётчик кликов искателей дополняет это всё.
Подробнее можно? Как именно наблюдалось?
по конкретному запросу (в обучающей выборке). А по реальным?
/ru/forum/comment/4002420
НПС — уже не значит, что текста на странице нету.
Это работа алго аннотирования...
... можете ещё понаблюдать не за самыми длинными ссылками, а за теми, в которых самые редкие слова (отсутствующие в тайтле страницы).
Т.е. страницы к индексации не запрещены и с сервера не удалены, поэтому запросы на удаление из выдачи... можете не повторять.
Не заставить, а предложить...
со своего ЖЖ или бысто индексируемого блога поставьте ссылок на эти страницы, есть некоторая вероятность... или ждите (нормальный искатель в сохранённую копию не лазиет, а попав на страницу уже той инфы не видит).
Тезисы спорны.
Пример (но старый). Сотни КВ текстов, без покупки ссылок, 400--600 уников (по СЧ < 15%) в основном НЧ, за месяц ~3000 разных запросов, только по нескольким десяткам из них была какая-то типа оптимизация и г-ссылки.
Оставил вам ссылки на статистику раскрученных сайтов (можете и сами в своей теме поискать), не хотите убедиться, что основной трафф собирают запросы с частотой от 1/мес. Вот и майтесь в заблуждениях, конкурируйте в толпе таких же. Так уж оно неизбежно кагбе.
А напишите тут, чего именно хотите. Чего там на сайте? Или это секрет, как и запросы?
Не хотите получить ответ на то, что дойдёт до вас после полугода?.. ну и ладно.
Там не на это предлагалось посмотреть, самое интересное вы наверное опять просмотрели.
Читайте прикреплённые темы /ru/forum/183081 там много чего полезного, на что внимание обращается не сразу.
. .