Тематика документа

pro-maker
На сайте с 08.12.2003
Offline
281
#71

Насколько помню Садовский в кулуарах отвечал, что одному документу ставится в соответствие один раздел Я.Каталога.

Вопрос о тематике Садовскому задавал по их докладу на РОМИП-2006. Поскольку в обсуждении у нас пока одни догадки, пришлось вернуться к первоисточнику. :) В отчете Яндекса есть раздел "2.4 Pseudo-relevance feedback". Итак, цитата: :)

мы даем бонус документам, похожим на помеченные экспертом. Мера похожести может быть любой. Нами была использована мера похожести, основанная на тегах, которые мы присваивали каждому документу.

Метод relevance feedback можно применять и без участия пользователя, если предположить, что наша система достаточно хороша и на первых позициях находит релевантные документы. Тогда мы просто объявляем первые N документов релевантными и повышаем ранг документов, похожих на них. Мы объявляем, что степень релевантности зависит от позиции документа в выдаче ...

Для расчета похожести нам нужны какие-то теги – признаки документов, по которым мы будем определять похожесть. Для РОМИПа мы использовали два набора тегов.

Первый набор тегов – автоматическая классификация документов по темам Яндекс.Каталога. Для классификации мы использовали алгоритм Байеса в интерпретации Пола Грэма [3] Коллекция доку-ментов, на которой настраивался автомат, сформирована по принципам, описанным в [4]. Каждому документу автомат приписывает одну тему. Точность алгоритма – 63%, полнота – 46%, F1 – 54% (величины – микроусредненные, измерены по рубрикам 2-го уровня Яндекс.Каталога) . В результате PRF дополнительный бонус получают документы той же темы, что и первые документы выдачи.

Второй набор тегов использует слова, встречающиеся в документе. Идея метода заключается в том, что некоторые группы слов часто встречаются вместе. Найдя такие группы, мы можем назначить им теги. После этого каждому документу мы можем назначить тег, если в документе встречается много слов из группы этого тега. Для построения таких групп был использован принцип минимальной длины описания (Minimal Description Length, MDL).

Возьмем матрицу, по строкам которой расположены документы, по столбцам слова. Запишем 1 в пересечение, если в документе встречается это слово и 0 в обратном случае. Дальше нам нужно построить максимально компактное описание этой матрицы с по-мощью тегов (групп слов). Используем описание в следующем виде. Для каждого тега имеем список слов, для каждого документа – спи-сок тегов этого документа и список “поправочных” слов. Объедине-ние слов тегов документа дает нам множество “предсказанных” слов для документа. “Поправочные” слова – это слова, которые есть в документе, но их нет в “предсказанных” или, наоборот, слова, ко-торые есть в “предсказанных”, но отсутствуют в документе. Подбе-рем оптимальное с точки зрения количества информации описание исходной матрицы. В результате получим группы слов и списки до-кументов, в которых используются эти группы слов. Для РОМИПа мы взяли ~50 тысяч документов и ~15 тысяч самых частотных слов. В этих данных были найдены ~800 групп слов. Эти группы и были использованы в качестве второго набора тегов. В результате PRF со вторым набором тегов бонус получают документы, использующие сходную с лидерами лексику.

Для определения схожести двух документов по тегам используется взвешенное по idf тега скалярное произведение ...

Для первого прохода с тегами – классификацией по каталогу k1=-0.3, k2=0.25 Для второго прохода с тегами по наборам слов k1=-0.1, k2=0.1

Возможно, наборы коэффициентов k1=-0.3, k2=0.25 и k1=-0.1, k2=0.1 и отражают размеры бонусов, получаемых документами за соответствие запросу пользователя. Хотелось бы, конечно, чтобы кто-то еще раз посмотрел источник и прокомментировал размер назначаемых бонусов.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#72

Кто б на русский перевёл?

pro-maker:
Точность алгоритма – 63%

Т.е. если определили тематику, то она оказалось верной чуть более, чем в половине случаев (или встречу динозавра на Невском или не встречу)

pro-maker:
полнота – 46%

Т.е. чуть более, чем в половине случаев тематику определить не удалось. Так что ли? Если так, то тематика определяется правильно примерно для четверти документов...

А спасение в разделе 3, третий абзац:


Был получен результат, говорящий, видимо, о том, что описанная
система способна отличать релевантные документы от нерелевантных, но существенно хуже различает сильно релевантные документы от слаборелевантных.

А вот это в переводе на русский означает, что если на любом сайте будет не одна ссылка на левый коммерческий ресурс, а, скажем, на 10 левых, но одной тематики (ок, с пересекающимся набором ключевиков), то все эти ссылки будут сочтены тематичными :)

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#73
Vetra:
Переколдовка по #like="www.ya.ru"
(лебедев::95545 && яндекс::42465 && 00000001997::14656 && 00000002006::21959 && яndex::169544 && студия::9752 && почта::5411 && артемий::322951 && лебедева::70589)//40
Вопрос к ХРНС, как к самому знатному колдуну: почему "лебедев" упоминается 2 раза?

Перехвалите, Vetra, мышек ловить перествну :)

Два раза лебедев мог быть по двум причинам:

-в тестах ссылках сильно отметился

-слово "Лебедева" Яндекс сейчас переколдовывает спецобразом для контента (не ссылок).

В ссылках на я.ру точного слова лебедев нет, да и ссылок со словом лебедева(у) всего 4,поэтому остается второй вариант: спецпереколдовка с процентом. Но точную переколдовку Яндекс сейчас не показывает. Вот только таким макаром и видим.

Если взять переколдованный запрос для оператора like то выдача похоже совпадает с выдачей по лайку, я проверил по like="www.yandex.ru":

http://www.yandex.ru/yandsearch?text=%28%FF%ED%E4%E5%EA%F1%3A%3A42465+%26%26+%EC%E0%F0%EA%E5%F2%3A%3A107268+%26%26+%E0%F4%E8%F8%E0%3A%3A17910+%26%26+%E7%E0%F0%E5%E3%E8%F1%F2%F0%E8%F0%EE%E2%E0%F2%FC%F1%FF%3A%3A6129+%26%26+wifi%3A%3A97227+%26%26+%EB%E5%E1%E5%E4%E5%E2%3A%3A95545+%26%26+00000000163%3A%3A38106+%26%26+00000000690%3A%3A111035+%26%26+advertise%3A%3A38641+%26%26+pda%3A%3A51611+%26%26+%E1%EB%EE%E3%3A%3A70075+%26%26+%EA%EE%F2%E8%F0%EE%E2%EA%E0%3A%3A68041%29%2F%2F40&stype=www

Надо обратить внимание, что мягкость там 40, а не 6. Т.е. кворум может быть очень низким. И если еще учесть множитель кворумный с корень_квадратный(число слов запроса-1), то лень считать, но это примерно 2-3 слова из 12 должно быть на похожих страницах (чтобы пройти отбор по похожести).

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
ostmaster
На сайте с 01.09.2002
Offline
222
#74
AiK:
Более, чем уверен, что тематика страницы Яндексом не определяется. Потому как первое, куда стоит пихать определение тематики - это контекстная реклама. Однако, мне в топике про листы в Exel'e постоянно пихают объявления по сталепрокату. Т.е. вроде бы листы, но совсем другие. Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.

Этот пример далеко не лучший.

Ты же сам признаешь, что алгоритмы там разные. СлАбо на Директе с софтовыми рекламодателями, поэтому и транслируют то что есть, а есть металлопрокат.

В темах где есть рекламодатель Директ весьма неплохо справляется с тематикой страницы и при пересечении "интересов".

Возможно даже с учетом приоритетов (заметила такое на днях), но это лишь гипотеза, будет время проверю по цене клика.

Для СМИ есть понятие "Универсальное" (вне темы?).

Другое дело, что процент сайтов подходящих под эту рубрику ввиду разброса тематик достаточно широк.

AiK:
при использовании крупных рубрик (бизнес, дом, hi-tech и т.п.) точность будет крайне невысокая (см. пример выше), а при использовании точных рубрик (металлургия, климатическое оборудование и т.п.) большинство ссылок просто перестанет учитываться, чего явно на сегодняшний день не наблюдается.

А если ввести "процент универсальности"?

К примеру сайт продающий металлопрокат - строго тематический, сайт про "умный дом" уже с оттенком универсальности. Больший процент универсальности позволяет считать "своими" темы из большего количества разделов ЯК.


Тестирование мобильных приложений и сайтов (/ru/forum/1032925) https://www.facebook.com/ostmaster (https://www.facebook.com/ostmaster)
AiK
На сайте с 27.10.2000
Offline
257
AiK
#75

ostmaster, мы потихоньку скатываемся в обсуждение директа.

Давай, я упрощу задачу, признав, что я ошибался :)

Итого, есть два варианта: в первом случае, документу приписывается один тэг, эквивалентный названию рубрике 2-го уровня из Я.Каталога. Во-втором случае, документу приписывается набор тэгов, эквивалентных названиям "секретных" групп слов. А вот бонус, как я и предполагал, выдаётся за совпадение по каждому из тэгов.

Но бонусы очень слабенькие, т.е. ссылка с тематической статьи не сможет перебить ссылку с нетематической сильной морды. Более того, этими бонусами достаточно легко манипулировать.

Вывод же из всего этого простой - невычисляемые сателлиты будут рулить как никогда :)

N
На сайте с 07.10.2004
Offline
75
#76
AiK:

Вывод же из всего этого простой - невычисляемые сателлиты будут рулить как никогда :)

Только чтобы сделать сателлит невычисляемым - нужно потрудиться. А после того как потрудишься его уже и сателлитом не назовешь...

Постоянно покупаю туризм, недвижимость, стройку.
N
На сайте с 07.10.2004
Offline
75
#77
Ceres:
Ну вот опять, а с какой стати по вашему ссылка на документ про хомячка с документа про вино не должна учитываться? Кто-то может ответить?

ссылка будет учитываться, вот только какое ссылочное по ней передастся и будет-ли от переданного толк. Вспомните про "анальную боль".

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий