Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.
Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати. :)
Никогда. Добро пожаловать в матрикснет. :D
А кто-то говорил, что уже решается задача по отстраиванию оптимальной выдачи по поведению для каждого запроса? Пока таких заявлений не было. Какая-то поведенческая статистика применяется, например при расчете pFound, но не статистика по конкретным документам, ее просто не хватит для адекватной оценки.
Это не реально сегодня, слишком ресурсоемкая задача.
В матрикснете нет положительных или отрицательных факторов. Есть просто факторы, которые, не зависимо от их логической сути могут сыграть в плюс или минус для конкретного документа по конкретному запросу. А по другому запросу для того же документа - сыграть наоборот.
В минусах и плюсах к релевантности после матрикснета - положительные и отрицательные уже есть.
Не нужно предполагать, исходя из житейских логик. Бесполезная трата времени. :)
Как добавляется новый фактор в матрикснет? Рассмотрим на примере того же YMW.
Для начала фактор YMW рассчитывается для всех документов обучающей выборки и проверяется (мат. методами) его независимость от уже имеющихся факторов. Но в случае данного фактора и так понятно, что независимость есть на длинных запросах, а значит и в целом она есть.
Затем матрикснет обучается с этим фактором и считается метрика качества обучения. Если с добавлением фактора качество не ухудшилось - фактор принимается в набор.
Логика фактора при этом не важна, главное, чтобы выполнялись указанные выше условия. Т.е. если например они бы выполнялись для фактора "количество точек в документе", или "количество тегов <td>", то такие факторы вошли бы в набор. Легко. :)
Эти параметры можно использовать в факторах для конкретного документа. А можно и не использовать.
Так никто и не говорил, что это хороший критерий качества. Яндексоидам любопытно было посчитать - они это сделали. То, что опубликованы честные цифры в пользу гугла - красиво. Гугл такого наверняка не стал бы публиковать. :)
Спасибо, исполнитель найден.
Ну это мера качества. Поэтому, если качество измерять по ней, то корреляция будет идеальная. :)
Другое дело, что мера была предложена для эксперимента и никто таким образом качество измерять скорее всего не будет в Яндексе.
Если куча НЧ вылезла в топ сама по себе, то иногда можно и оптимизировать, для улучшения позиций.
Ну там же в заголовке написано - мера качества. Сама с собой она отлично коррелирует. А с качеством в Вашем понимании не обязана. :)
Фича экспериментальная, на саму меру можно забить, достаточно посмотреть на то, какие данные Яндекс снимает с выдачи.
Все не совсем так. В случае малого количества запросов на страницу - не получить, потому что не сложно залить в текст все прямые вхождения. А вот в случае, когда вместе с ВЧ/СЧ на странице продвигается длинный хвост НЧ - можно и посчитать. Ну например - возьмем от балды первую попавшуюся метрику, сумму YMV*(кол-во показов запроса) по всем выбранным НЧ. Если текст можно разбить на несколько блоков (например абзацев), которые можно как угодно переставить между собой, то получаем простую оптимизационную задачку для студента. :)
Не, ну это не интересно.
Если пошариться по сайту RCDL, то по контенту можно и более интересные работы найти. Например в работах прошлого года:
"Поиск неестественных текстов"
"Метод обнаружения поискового спама, порожденного с помощью цепей Маркова"
Полезные статьи, особенно для дорвейщиков. :)
Ржачная работа. :D
А что мешает размещать на Сапе навсегда? Оплачивайте регулярно, всего и делов. Продажные ссылки из статей "навсегда" также легко определяются, как и ссылки с ежедневной оплатой. И отношение к ним ничуть не лучше, а со временем может стать даже хуже. :)
Точные вхождения ценились всегда, если Вы не в курсе. YMV не определяет "как можно более близкое к точному", оно находит наименьшую "кучку" из слов запроса. Близость к точному в такой "кучке" может быть минимальна.
P.S. Вообще эта осень была богата на разнообразные доклады. Можно упомянуть еще доклад Яндекса на RuSSIR:
Query expansion based on linguistic evidence, на английском.
Варианта нормальных два - АОТ или mystem. АОТ точнее, но медленнее, mystem - грубее, но быстрее. Я пользую mystem.
Не стоит, не осилите. Да и смысла для Вас в этом нет никакого.
Попробуйте перейти на общепринятые термины (найдя их в литературе) и писать без ошибок. А то диплом получится ржачным. :)
Самое прямое - на АОТ можно построить приличный поиск.
А в чем проблемы-то? :)
Почему не относятся? Ты видел сегодняшний список факторов? :)
Наверное.