Нейросети в ранжировании

E
На сайте с 27.08.2005
Offline
15
1925

Натолкнулся на описание метода подсчета популярности в документации DataParkSearch.

При этом методе расчёта популярности подразумевается, что страницы являются нейронами, а ссылки между страницами являются связями между нейронами. Такми образом для образованой нейросети можно использовать один методов её обучения - метод обратного распростаанения ошибки. Рейтингом популярности страницы в данном случае считается уровень активности соотвествующего нейрона.

Интересно, что здесь имеется в виду? Что на входах нейросети? Что на выходах? Какие активационные функции?

И какие вообще существуют подходу к использовании нейросетей в ранжировании?

Еще встретил описание применения нейросетей вот в этой книге:

David A Grossman, Ophir Frieder

Information Retrieval: Algorithms and Heuristics

Для тех, кто не боится сломать глаза ;)

http://books.google.com/books?vid=ISBN0792382714&id=JZnnUqIbpqAC&pg=PA65&lpg=PA65&dq=Information+retrieval+neural&sig=IBszKC7OhMQaSYpcKn_PPuCX0n4

Однако, авторы описывают нейросеть с линейными функциями активации. Такая сеть вообще-то мало интересна....

Kolyaj
На сайте с 28.03.2006
Offline
69
#1
При этом методе расчёта популярности подразумевается, что страницы являются нейронами, а ссылки между страницами являются связями между нейронами. Такми образом для образованой нейросети можно использовать один методов её обучения - метод обратного распростаанения ошибки. Рейтингом популярности страницы в данном случае считается уровень активности соотвествующего нейрона.

Метод обратного распространения ошибки обучает многослойную сеть без обратных связей. В данном случае получится с обратными.

E
На сайте с 27.08.2005
Offline
15
#2
Kolyaj:
Метод обратного распространения ошибки обучает многослойную сеть без обратных связей. В данном случае получится с обратными.

Нет, он может применяться в т.ч. и для сетей с обратными связями. Но вопрос не в этом. Интересно, как именно нейросети используются при ранжировании, в частности - в DataparkSearch.

Kolyaj
На сайте с 28.03.2006
Offline
69
#3
Eugen:
Интересно, как именно нейросети используются при ранжировании

Один из вариантов (первое что в голову пришло): сеть обучается без учителя на наборе страниц, на выходе получаем степени соответствия страниц к полученным кластерам.

При поиске на вход сети подается поисковый запрос и в зависимости от того к какому кластеру сеть отнесет его ранжируем документы. Можно к примеру взвесить документы в зависимости от принадлежности к каждому кластеру и принадлежности к соответствующим кластерам поискового запроса.

E
На сайте с 27.08.2005
Offline
15
#4

Да, но что тогда подавать на входы сети? Я считаю, что при таком подходе надо как-то максимально полно описать документ вектором конечной длины, вот только, что это будет за вектор? Кроме того, тот подход, что вы предложили, не учитывает соответствие документа запросу и скорее применим для тематической кластеризации документов, чем для ранжирования.

А насчет dataparksearch, то, как понятно из краткого описания, они документы рассматривают, как нейроны, а линки между ними - как связи нейронов. И как-то пытаются эту сеть обучить :)

Кстати, может, кто посоветует книги или статьи на эту тему?

Kolyaj
На сайте с 28.03.2006
Offline
69
#5
Eugen:
как понятно из краткого описания, они документы рассматривают, как нейроны, а линки между ними - как связи нейронов. И как-то пытаются эту сеть обучить

При таком построении сети вес нейрона будет аналогом PR, а использование для вычисления PR нейронных сетей ИМХО нецелесообразно, т.к. если вычислять его в лоб то требуется решить систему M линейных уравнений с M переменными (M - количество страниц) с сильно разреженной матрицей (разумеется для классического PR), в случае же использования НС потребуется оптимизировать нелинейную функцию N переменных, где N количество ссылок в системе. Очевидно, что N >> M, плюс в первом случае линейность, во-втором нелинейность.

Да, но что тогда подавать на входы сети?

Честно говоря не знаю.

Кстати, может, кто посоветует книги или статьи на эту тему?

На какую именно?

Kolyaj
На сайте с 28.03.2006
Offline
69
#6

И еще

Кроме того, тот подход, что вы предложили, не учитывает соответствие документа запросу

Он учитывает соответствие запроса к кластеру, к которому уже принадлежат документы.

M
На сайте с 29.03.2003
Offline
65
#7

См. http://notes.sochi.org.ru/78/ об использовании нейросети в MSN Search.

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий