идея для поисковика

5

Dmitry Ermolaev

3 октября 2002, 18:29

4687

Возможно я придумал велосипед, но...

Суть в том, что новый сайт, попав в базу поисковика будет иметь начальный самый низкий рейтинг. И ему будет очень трудно пробиться к вершине рейтинга, если используется способ основанный на кликах самих пользователей. Так как если на запрос пользователя будет выдано тысяча подобных сайтов, у которых рейтинг пользовательского кликанья (как у Гугля) выше, то новый сайт никогда не будет кликнут пользователем, так как будет находиться на 100-й странице. Посему, предлагаю способ:

сортировать сайты в результатах по случайному закону, с некоторой статистической дисперсией и статистической случайностью. То есть, сайт с низким рейтингом имеет вероятность 0,8 оказаться внизу списка, 0,15 - в середине и 0,05 в начале. Тогда, если сайт дествительно стоящий, пользователь будет чаще его выбирать чем остальные и повышать его рейтинг, наччинаяя с нулевого. А возможно, что сайтам-новычкам нужно давать некий бонус начального старта, который повышает его рейтинг, но со временем этот бонус будет таять, а на замену ему должен приходить реальный рейтинг от кликаний пользователей.

Способ дарю, авторство за мной

www.icreator.ru

482

Sergey Petrenko

3 октября 2002, 18:37

#1

Стоп, а что - релевантность запросу уже значения не имеет? Только релевантность + link popularity способно обеспечить такое количество вариаций, что никаких бонусов не понадобится.

DE

5

Dmitry Ermolaev

3 октября 2002, 18:44

#2

незнаю, что Вы там под этим непонятным словом "релевантность" понимаете, но когда я даю запрос "синтаксический анализ текста", то полностью соответсвующих сайтов вывалится несколько сот (или тысяч). Однако, по краткому описанию сайта, его названию или контексту найденного фрагмента текста, пользователь будет не все ссылки кликать, а возможно только каждую пятую, тем самым подымая рейтинг кликнутых сайтов по этому заросу.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

3 октября 2002, 19:38

#3

Ну, как так - идея поисковика, а что такое "релевантность" не знаем? :)

Давайте посмотрим, где и как можно внедрить click popularity.

Возьмем гипотетический поисковик, ранжирующий страницы только по координатам слов, составляющих запрос, и расстоянию между ними, и проследим механизм ранжирования.

Введем запрос и получим кучу ссылок в ответ. Вверху списка будут ссылки на страницы, где наши слова встречаются точно так же, как они введены в запросе - в вашем примере это "синтаксический анализ текста". Ниже будут страницы, где искомые слова будут разделены одним словом, далее - двумя и т.д. Некоторая степень приближения к идеальной релевантности будет достигнута - но не исключена возможность хорошего ранжирования данной страницы форума - словосочетание здесь встречается, расстояние между словами минимально, а тем не менее о теме запроса здесь не говорится.

Наложим на результаты поиска link popularity в самом простейшем виде. Результаты, конечно, изменятся - вверх попадут страницы (для удобства будем считать - сайты) с большим количеством ссылок на них + минимальным расстоянием между составляющими запроса.

Добавим учет текста ссылок. Теперь вверху окажутся сайты, в тексте ссылок на которые встречаются слова из нашего запроса, + расстояние между словами запроса минимально. А между ними уже выше окажутся сайты с б'ольшим количеством ссылок на них.

Добавим учет авторитетности сайтов, ссылающихся на выведенные в результатах поиска. Этакий ВИЦ получится. Кто будет наверху? Сайты, на которые ссылаются с сайтов с большим ВИЦ с использованием слов, приведенных в запросе. Благодаря механике работы робота, так как робот просто может отложить визит на сайт по ссылке на следующий проход, но ссылку и ее текст при этом запомнить, тот или иной сайт может попасть на вершину результатов поиска, не будучи вообще проиндексированным.

Все еще не устраивает релевантность? Добавим учет тематики ссылающихся сайтов и самого сайта. Т.е. статья о синтаксическом анализе текста, размещенная на сайте анекдотов, будет ранжироваться ниже аналогичной, размещенной на сайте о лингвистике. А если статья опубликована на трех сайтах о лингвистике, то выше окажется тот, на который ведет больше ссылок с других сайтов о лингвистике и т.д.

Это будет давно ожидаемый тВИЦ.

Через такую броню методов довольно сложно пробиться случайным совпадениям, ведь, чтобы странице оказаться на вершине надо:

1. Соответствовать запросу.

2. Находиться на соответствующем теме запроса сайте.

3. Сайт должен быть популярен, причем не вообще, а в своей тематической среде.

По-моему, это почти гарантирует, что статья будет содержать нужные сведения.

Вот для полного ажура, только после всего вышеперечисленного, можно добавить click popularity. Только не так, как предлагается. Скорее стоит сделать так - если после клика на ссылку пользователь кликает еще на одну, значит, содержание страницы, на которую он попал в первый раз, не удовлетворило его и, вполне возможно, не вполне соответствует запросу. Следовательно, ранжирование этой страницы по этому запросу уменьшается.

Только нового здесь ничего нет - так пробовало делать NBCi, так, кажется, делает Altavista.

И в данном случае ценно то, что пользователь все-таки нашел, что искал - а не попытка подсунуть ему сайт, только потому, что он новый.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

3 октября 2002, 21:11

#4

Dmitry Ermolaev

Статистические модели хороши для описания процессов, которые протекают в силу действия неизвестных факторов по неизвестным пока законам. Но они всегда проигрывают в точности моделям, в которых хоть что-то известно и детерминировано. Если вы знаете, что у монетки смещен центр тяжести и как именно он смещен, а я не знаю, то вы в большинстве случаев, допустим в 60%, выиграете у меня в орлянку, не так ли? Если я изначально положу вероятность выпадения орла равной 50%, а затем на опыте увижу, что орел выпадает в 60% случаев - это знание мне мало что даст, потому что я не буду знать, почему так произошло, а вы, сместив центр тяжести монетки в другую сторону, вновь легко меня обыграете. Примерно так и с поиском. Многие факторы, которые обеспечивают выдачу релевантных с точки зрения юзера страниц уже глубоко изучены и известны - и совершенно незачем подменять их статистическими моделями, тем более со взятыми с потолка вероятностями

ЗЫ. Хотя спамить поисковики, работающие как статистические модели, было бы одно удовольствие :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

13

Exteris

4 октября 2002, 02:50

#5

Статистические модели хороши для описания процессов, которые Многие факторы, которые обеспечивают выдачу релевантных с точки зрения юзера страниц уже глубоко изучены и известны - и совершенно незачем подменять их статистическими моделями, тем более со взятыми с потолка вероятностями.

Не думаю, что поведение и запросы пользователей поисковика детерминированы и точно описываются математическими формулами. Есть формулы, полученные эмпирическим путем и дающие результат, иногда совершенно неудовлетворяющие меня, как юзера. Поэтому, идея внести небольшую хаотическую составляющую в результаты поиска, заслуживает внимания.

Wolfram Alfa - поисковик UPD: Локальные результаты поиска Поисковик Mahalo выпустил свой

257

AiK

4 октября 2002, 07:30

#6

Статистические модели хороши для описания процессов, которые протекают в силу действия неизвестных факторов по неизвестным пока законам. Но они всегда проигрывают в точности моделям, в которых хоть что-то известно и детерминировано.

Не совсем так. Яркий пример - молекулярная физика. Как движется отдельная молекула рассчитать невозможно - в механике задача n тел в общем случае считается не разрешимой. И предложенный вариант не будет работать на редкозадаваемых запросах - просто неоткуда набирать статистику. А формула, описывающая вероятностное поведение пользователя, есть. И по ней вычисляется PageRank.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

DE

5

Dmitry Ermolaev

4 октября 2002, 08:15

#7

Ребята, я-то писал про случай когда выдаются одинаково релевентные (по некоему алгоритму) ссылки и что хорошо бы их еще отсортировать по некоторому закону с небольшой случайной составляющей.

482

Sergey Petrenko

4 октября 2002, 08:30

#8

Dmitry Ermolaev

А я показал, как существующих факторов ранжирования вполне хватает для сортировки. На мой взгляд, вероятность, что при их применении некий средневзвешенный параметр релевантности будет одинаков для хотя бы двух документов пренебрежимо мала.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

4 октября 2002, 09:00

#9

Видимо, имеется в виду, что результат сортировки все-таки получается неудовлетворительный, несмотря на то, что факторов достаточно. И предлагается корректировать результат, полученный из алгоритма, при помощи пользователей. Только зачем выставлять вероятности? Ниоткуда же не известно, что вниз оптимально отправлять с вероятностью 0,8 , а не 0,7 или 0,9. Если учитывать в конечной сортировке мнение юзеров, я бы скорее предложил способ, который использую для максимизации количества хитов на своих сайтах: если по ссылке А, которая стоит выше ссылки Б, осуществляется меньше переходов, чем по ссылке Б, то взаиморасположение А и Б признается неудачным и они меняются местами.

Но это хорошо делать для своего сайта, поскольку переходы идут на мои же страницы. А поисковику, который отправляет юзера на чужие сайты, это не так уж нужно, равно как и вероятностная корректировка - это ж сколько еще надо цифр держать, а ради чего, ради учета мнения юзера? Вообще, если поисковик живет на рекламе и не испытывает конкуренции, ему выгоднее, чтобы пользователь просмотрел как можно больше страниц выдачи, а не сразу уходил на что-нибудь дико релевантное

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

4 октября 2002, 09:54

#10

А поисковику, который отправляет юзера на чужие сайты, это не так уж нужно, равно как и вероятностная корректировка - это ж сколько еще надо цифр держать, а ради чего, ради учета мнения юзера?

Ну, строго говоря, это стоит делать - это еще один механизм оценки релевантности. Только вот схема с понижением ранга, о которой я говорил выше, ИМХО, более интересная.

Вообще, если поисковик живет на рекламе и не испытывает конкуренции, ему выгоднее, чтобы пользователь просмотрел как можно больше страниц выдачи, а не сразу уходил на что-нибудь дико релевантное

Ага, как же. Приду я как-нибудь, попробую поискать что-то, найду (из принципа) что-то действительно релевантное на третьей странице и пойду на другой поисковик, который релевантные ссылки выдает на первой странице. Именно поэтому я не пользуюсь для поиска по УАнету украинскими поисковиками - Яндекс ищет гораздо качественнее.

Зачем быть уникальным в мире, где все можно скопировать

Яндекс Вебмастер вынес товарные фиды в отдельный раздел