G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
vitali_y:
1) приличный поиск можно построить и без АОТ.

2)
2.a) да нет проблемм, здесь с точки зрения морфологии, согласен - хотел сказать, что можно обходиться и без морфологического анализа.

Ну тогда уровень приличности сильно упадет. Т.к., если говорить о русском языке, то слишком много исключений из правил. Более примитивными средствами типа стеммеров их не обработать.

vitali_y:
2.b) что и как вы будете искать(индексировать) при строке запроса "trejbngfek dnfvdnfwjknre rkjenrfevf"? (вопрос на вопрос на вопрос...)

Именно это и буду искать. Вы думаете, что в словаре большого поисковика количество слов сравнимо с обычным словарем? Как бы не так, разница чуть ли не на 3 порядка по размеру, Ваши бредослова туда тоже войдут, кстати. :)

юни:
В этом и вопрос. А когда она важна?

Никогда. Добро пожаловать в матрикснет. :D

юни:
Не влияет на поведение пользователя. Как и количество тегов <td>.

А кто-то говорил, что уже решается задача по отстраиванию оптимальной выдачи по поведению для каждого запроса? Пока таких заявлений не было. Какая-то поведенческая статистика применяется, например при расчете pFound, но не статистика по конкретным документам, ее просто не хватит для адекватной оценки.

юни:
Зато на него влияет, например, удобство навигации по сайту. Ты сможешь засунуть в матрикснет числовое значение фактора "удобство навигации"? ;)

Это не реально сегодня, слишком ресурсоемкая задача.

john2007:
Я, например, не исключаю, что общее качество выдачи немного повысится, если в качестве положительного фактора мы будем учитывать абсолютное количество орфографических ошибок на сайте.

Это может произойти, так как реально может быть какая-то положительная зависимость между количеством материалов на сайте и релевантностью страницы.

В матрикснете нет положительных или отрицательных факторов. Есть просто факторы, которые, не зависимо от их логической сути могут сыграть в плюс или минус для конкретного документа по конкретному запросу. А по другому запросу для того же документа - сыграть наоборот.

В минусах и плюсах к релевантности после матрикснета - положительные и отрицательные уже есть.

юни:
Предположу, что даже не в большинстве случаев.

Не нужно предполагать, исходя из житейских логик. Бесполезная трата времени. :)

Как добавляется новый фактор в матрикснет? Рассмотрим на примере того же YMW.

Для начала фактор YMW рассчитывается для всех документов обучающей выборки и проверяется (мат. методами) его независимость от уже имеющихся факторов. Но в случае данного фактора и так понятно, что независимость есть на длинных запросах, а значит и в целом она есть.

Затем матрикснет обучается с этим фактором и считается метрика качества обучения. Если с добавлением фактора качество не ухудшилось - фактор принимается в набор.

Логика фактора при этом не важна, главное, чтобы выполнялись указанные выше условия. Т.е. если например они бы выполнялись для фактора "количество точек в документе", или "количество тегов <td>", то такие факторы вошли бы в набор. Легко. :)

mhz:
А что, разве относятся? Они ведь все отражают удовлетворённость юзера выдачей, а на ранжировании конкретных сайтов не сказываются.

Эти параметры можно использовать в факторах для конкретного документа. А можно и не использовать.

юни:
В том и проблема, что время, затраченное на поиск - мягко говоря, неоднозначный критерий качества. Одно дело, когда человек ищет зимней ночью "такси <улица>", и другое - когда он же ищет "история времени восходов летнее солнцестояние" за 10 минут до "такси".

Так никто и не говорил, что это хороший критерий качества. Яндексоидам любопытно было посчитать - они это сделали. То, что опубликованы честные цифры в пользу гугла - красиво. Гугл такого наверняка не стал бы публиковать. :)

Спасибо, исполнитель найден.

юни:
:) Это как?

Ну это мера качества. Поэтому, если качество измерять по ней, то корреляция будет идеальная. :)

Другое дело, что мера была предложена для эксперимента и никто таким образом качество измерять скорее всего не будет в Яндексе.

wolf:
Лучше изначально морду двигать по одному-двум-трех суровым ВЧ, а длинный хвост НЧ размазывать по внутряку.

Если куча НЧ вылезла в топ сама по себе, то иногда можно и оптимизировать, для улучшения позиций.

john2007:
А "Экономия времени как мера качества поисковой системы..."
Вот я так и не понял, как время, затраченное на поиск коррелирует с качеством выдачи?

Ну там же в заголовке написано - мера качества. Сама с собой она отлично коррелирует. А с качеством в Вашем понимании не обязана. :)

Фича экспериментальная, на саму меру можно забить, достаточно посмотреть на то, какие данные Яндекс снимает с выдачи.

wolf:
И всё равно, максимум этого фактора, на беглый взгляд, достигается на точном вхождении фразы (в этом случае mw(d,n), находящееся в знаменателе, будет минимально). А оно у всех есть, кто в топ лезет. Так что выигрыша по сему фактору не получить.

Все не совсем так. В случае малого количества запросов на страницу - не получить, потому что не сложно залить в текст все прямые вхождения. А вот в случае, когда вместе с ВЧ/СЧ на странице продвигается длинный хвост НЧ - можно и посчитать. Ну например - возьмем от балды первую попавшуюся метрику, сумму YMV*(кол-во показов запроса) по всем выбранным НЧ. Если текст можно разбить на несколько блоков (например абзацев), которые можно как угодно переставить между собой, то получаем простую оптимизационную задачку для студента. :)

Step40:
Вот Вам и первоисточник и воровство контента Вот

Не, ну это не интересно.

Если пошариться по сайту RCDL, то по контенту можно и более интересные работы найти. Например в работах прошлого года:

"Поиск неестественных текстов"

"Метод обнаружения поискового спама, порожденного с помощью цепей Маркова"

Полезные статьи, особенно для дорвейщиков. :)

Step40:
А вот Вам сео ссылки Вот...

Ржачная работа. :D

inseonight:
Я думаю, что скоро ещё больше будет цениться размещение ссылок навсегда. Яндекс идет по пути развития Гугла. Скоро будем продвигать только статьями...

А что мешает размещать на Сапе навсегда? Оплачивайте регулярно, всего и делов. Продажные ссылки из статей "навсегда" также легко определяются, как и ссылки с ежедневной оплатой. И отношение к ним ничуть не лучше, а со временем может стать даже хуже. :)

john2007:
А на счет YMV - браво Яндекс!
Теперь документы с точным вхождением или как можно более близким к точному будут цениться выше.
Ну и позднова-то же их осенило :)

Точные вхождения ценились всегда, если Вы не в курсе. YMV не определяет "как можно более близкое к точному", оно находит наименьшую "кучку" из слов запроса. Близость к точному в такой "кучке" может быть минимальна.

P.S. Вообще эта осень была богата на разнообразные доклады. Можно упомянуть еще доклад Яндекса на RuSSIR:

Query expansion based on linguistic evidence, на английском.

GBall:
Пишу диплом бакалавра на тему "Организация поиска с интеллектуальным анализом запросов". И вопрос сейчас не про саму организацию поиска, индексации и т.д., а про Морфологческий анализатор.

Варианта нормальных два - АОТ или mystem. АОТ точнее, но медленнее, mystem - грубее, но быстрее. Я пользую mystem.

GBall:
Стоит ли его вообще писать

Не стоит, не осилите. Да и смысла для Вас в этом нет никакого.

GBall:
Тоетсь привести их к заглавной форме.

Попробуйте перейти на общепринятые термины (найдя их в литературе) и писать без ошибок. А то диплом получится ржачным. :)

vitali_y:
www.aot.ru - ну определяет части речи, ну и что? какое отношение это имеет к поиску?

Самое прямое - на АОТ можно построить приличный поиск.

vitali_y:
GBall, что вы будете делать (т.е. что будет делать ваша интеллектуальная поисковая система) если в качестве запроса я введу "trejbngfek dnfvdnfwjknre rkjenrfevf"? какая тут морфология?

А в чем проблемы-то? :)

mhz:
Эксперимент интересный, жаль только что все повед. факторы, рассматриваемые в нём, не относятся к ранжированию

Почему не относятся? Ты видел сегодняшний список факторов? :)

mhz:
Параметр наверно более полезен при длинных низкочастотниках.

Наверное.

Всего: 1960