к вопросу об открытии алгоритма яндексации

123
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#11

Вообще-то есть OpenSource-проект для поисковиков - MnoGoSearch . Так что можешь посмотреть и даже принять участие, кажется.

Только согласись, что позиции этого движка поиска далеки от аналогичных позиций ведущих поисковиков - того же Яндекса, Google и остальных.

A
На сайте с 23.11.2000
Offline
166
#12

Ну и дискуссия! :0)

Надо на банковском форуме что-то подобное предложить, типа выложите, господа, open source системы защиты транзакций, это ж так интересно - смотреть, как народ друг другу деньги переправляет, кто, кому, сколько...

F
На сайте с 15.11.2000
Offline
116
#13

Originally posted by Gray:
Вообще-то есть OpenSource-проект для поисковиков - MnoGoSearch .

Есть еще выпускаемый под GNU GPL ASPseek , в нем, кстати, PageRank реализован. Если кого-то вдохновляет OpenSource, прекрасно, начинайте с этих проектов. Через пару лет результаты сравним.

2vs: Влад, думаю, Вы прекрасно понимаете, что искать абсолютную формулу релевантности вовсе не нужно. Достаточно в конкретном случае понять, за счет чего именно обгоняют конкуренты (а речь идет, как правило, о максимум 10-20 сайтах, которые выше в результатах), и скорректировать свою страницу. Даже если она не достигнет экстремума, она окажется на первом месте, а это и есть искомый результат. Так что ждем открытия кода Рамблера, а мы уж отблагодарим.

С уважением,

Александр Садовский.

D
На сайте с 16.11.2000
Offline
14
#14

2andre: Как раз банкам бы не мешало выложить схемы защиты, а то зачастую - дуршлаг полный :-) (как человек которому это преподают).

И mnogosearch и aspseek - решают задачи совсем другого масштаба (совсем мелкого :-)). Там совсем ничего интересного нет (в алгоритмах работы):-)

А интересно как именно это работает с большим обьемом информации, как это можно улучшить. Какие у них есть недостатки, уши которых так и торчат наружу :-) Мне например формула релевантности не нужна - у меня их 3 есть :-)

K
На сайте с 27.11.2000
Offline
80
#15

Originally posted by wolf:
Не так уж долго и не так уж сложно для человека, немного разбирающегося в математике. Вы алгоритмик откройте, а дальше уже наши проблемы.

Хорошо. Ты хотел "магическую формулу"? Пожалуйста! Вот формула, которая вовсю используется при вычислении релевантности документа: Pi+1 = 1 - (1 - Pi)(1 - f). Выполняется итеративно по всем вхождениям слова. Pi+1 - вероятность релевантности на i+1-м шаге, Pi, как можно догадаться - на i-м , f - очередной вклад в общую вероятность релевантности документа запросу.

Ну и как, легче стало? А теперь открой учебник по терверу (любой) и посмотри в самом начале...

Ну как, нашел эту формулу? :-)

Originally posted by wolf:
А то, что в Рамблере никакой "формулы релевантности" нету - и так ясно, потому как релевантности как таковой в его результатах поиска обнаружить невозможно.

Ага. Также очень полезно громко заявить, например, что Бога нет

С уважением, Андрей Коваленко, Рамблер.

С уважением, Андрей Коваленко aka Keva
wolf
На сайте с 13.03.2001
Offline
1183
#16

Originally posted by Keva:
Хорошо. Ты хотел "магическую формулу"? Пожалуйста! Вот формула, которая вовсю используется при вычислении релевантности документа: Pi+1 = 1 - (1 - Pi)(1 - f). Выполняется итеративно по всем вхождениям слова. Pi+1 - вероятность релевантности на i+1-м шаге, Pi, как можно догадаться - на i-м , f - очередной вклад в общую вероятность релевантности документа запросу.
Ну и как, легче стало? А теперь открой учебник по терверу (любой) и посмотри в самом начале...
Ну как, нашел эту формулу? :-).

Ага. А еще можешь раскрыть всем страшный секрет, что при при вычислении релевантности документа вовсю используюся операции суммирования, вычитания и умножения - со ссылкой на учебник арифметики для первого класса.

Originally posted by Keva:
Ага. Также очень полезно громко заявить, например, что Бога нет

Вы бы на конструктивную критику поадекватнее реагировали бы. А то "в огороде бузина, а в Киеве дядька" получается.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
K
На сайте с 27.11.2000
Offline
80
#17

В точку! wolf, ты нас раскрыл!!! Операции суммирования и умножения действительно используются, причем достаточно часто!

Вы бы на конструктивную критику поадекватнее реагировали бы.

Да нет, на конструктивную критику я как раз реагирую обычно конструктивно. А так реагирую как раз на голословную

Но, если закончить бодания и говорить конструктивно, то вот что получится.

У Рамблера есть недостатки, и мы, как ты понимаешь, о них знаем. Это редкое обновление базы и наличие страниц, которые уже стали недоступны, но мы об этом не знаем. Или делаем вид, что не знаем

Но вот насчет релевантности - тут ты неправ. Сначала Ашманов, потом - я некоторое время назад предлагали участникам форума позаниматься сравнительными оценками полноты базы и релевантности выдачи русских поисковых машин. Однако все застопорилось, напомню, на том, что не смогли выбрать методику, по которой проводить эти оценки.

Так, для оценки размера индекса Илья (iseg) предлагал выполнять запросы по редким словам; Игорь публиковал методику оценки релевантности выдачи; все дружно это обсуждали - но так это и заглохло. А жаль.

Так вот, мы постоянно занимаемся внутренним мониторингом релевантности выдачи и Яndex'а, и Рамблера, и Апорта. Я, конечно, могу опубликовать цифры, но они имеют смысл только в контексте применяемой методики.

Поэтому предлагаю заинтересованным поставить самый простой эксперимент в домашних условиях (ну, или в рабочих, если Инет - на работе ).

Суть его проста. Вот сейчас закончился первый тур кубка Яndex'а, и доступны записи всех пяти или шести проводившихся игр. Надо взять любую из них и ответить на предлагаемые Кубком Яndex'а двадцать вопросов, используя три наши русские поисковые машины. В каждом случае следует отмечать для себя, каким по счету в выдаче был документ, содержащий правильный ответ на вопрос, и сколько (визуально) мусора было на первой странице.

Эксперимент этот, конечно, не будет чистым - запросы-то каждый будет давать свои, но впечатление общее сложиться должно...

Можно, конечно, отнестись предвзято и, скажем, поискать Виагру в Рамблере по запросу "Виагра", а в Апорте по запросу "реферат", после чего прийти к выводу, что "Апорт ни фига не ищет" , однако я просто пытаюсь быть конструктивным

NP
На сайте с 24.11.2001
Offline
14
#18

На самом деле, наши Брэнды алгоритма не откроють хоть убейся. Этот вопрос ясен как день. Так и будут вилять хвостом. Хотя выложить общих принципов подсчета релевантности (только всех принципов) вместе с условными коэффициентами значимости того или иного принципа, и вобщем вопрос продвижения будет решен. Отписка "советы вебмастеру" в том виде как она лежит на Яндексе врядли может сколь-нибудь продвинуть веб-мастера в решении задачи. А пока нам только придется "додумывать" факты продажи позиций по тем или иным запросам.

F
На сайте с 15.11.2000
Offline
116
#19

Originally posted by Keva:
Надо взять любую из них и ответить на предлагаемые Кубком Яndex'а двадцать вопросов, используя три наши русские поисковые машины. В каждом случае следует отмечать для себя, каким по счету в выдаче был документ, содержащий правильный ответ на вопрос, и сколько (визуально) мусора было на первой странице.

Андрей, я участвовал в первом Кубке, я участвовую во втором. И, естественно, еще до начала Кубка я тестировал 4 поисковика на предмет того, стоит их использовать или нет. Так вот, я держу открытыми ДВА окна с Яндексом, одно с Google, а Апорт и Рамблер держу только на всякий случай, который происходит раз в 50-100 вопросов. И знаете, баллы набираю неплохие.

Это не значит, что Рамблер ужасен, просто он не годится для сложного и/или быстрого поиска (а это довольно редкая задача). Если по запросам, где слова тесно связаны, и где известна точная формулировка Рамблер дает вполне пристойный результат, то как только речь заходит о нечетком поиске или сложных соотношениях между важностью слов, он полностью пасует перед Яндексом.

Есть у Рамблера и сильные стороны, например, поиск сложных сокращений -- Яндекс тут порою бессилен. Но это, увы, слишком редкая задача.

Так что при сравнении сквозь призму Кубка по поиску Яндекс легко побеждает Рамблер.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 28-11-2001).]

MD
На сайте с 27.05.2001
Offline
5
#20

Originally posted by naPAULm:
2Dworkin:
Алгоритмы все - проги нет...
но если говорить о сути, то тем более. Вопрос об открытых алгоритмах поисковых машин, становится вопросом времени...
2Aik: А между прочим дельное предложение. Тем более, если за разработку возьмутся инициативные люди. Ведь есть же положительный опыт открытой разработки целых ОСей, чем поисковики хуже?.. Правда, боюсь, и здесь Россия не вылезет на первые места. Слишком развито чувство собственности на талант данный от Бога и бесплатно...

Ну, вот, например, есть у меня технология поиска своя и несколько материалов по ней. Всё, прям, как у гугла. Только что-то не сильно это влияет на посещаемость. Плохая она? - не думаю, мне - нравится. Кстати, не видно не только повторов, но и имеющиеся искалки что-но не повторяют особенно.

Взглянуть здесь: http://hash.dorms.spbu.ru/mathmag/,

о поиске - в рассылке.

С уважением,Mashiah Davidson
123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий