Sergey Petrenko

Sergey Petrenko
Рейтинг
482
Регистрация
23.10.2000
А поисковику, который отправляет юзера на чужие сайты, это не так уж нужно, равно как и вероятностная корректировка - это ж сколько еще надо цифр держать, а ради чего, ради учета мнения юзера?

Ну, строго говоря, это стоит делать - это еще один механизм оценки релевантности. Только вот схема с понижением ранга, о которой я говорил выше, ИМХО, более интересная.

Вообще, если поисковик живет на рекламе и не испытывает конкуренции, ему выгоднее, чтобы пользователь просмотрел как можно больше страниц выдачи, а не сразу уходил на что-нибудь дико релевантное

Ага, как же. Приду я как-нибудь, попробую поискать что-то, найду (из принципа) что-то действительно релевантное на третьей странице и пойду на другой поисковик, который релевантные ссылки выдает на первой странице. Именно поэтому я не пользуюсь для поиска по УАнету украинскими поисковиками - Яндекс ищет гораздо качественнее.

Кстати, есть возможность принимать оплату через Webmoney. Скорее всего, сейчас доработаем форму заявки, чтобы было где указать WMID, и по внутренней почте будет выставляться счет.

Dmitry Ermolaev

А я показал, как существующих факторов ранжирования вполне хватает для сортировки. На мой взгляд, вероятность, что при их применении некий средневзвешенный параметр релевантности будет одинаков для хотя бы двух документов пренебрежимо мала.

Ну, как так - идея поисковика, а что такое "релевантность" не знаем? :)

Давайте посмотрим, где и как можно внедрить click popularity.

Возьмем гипотетический поисковик, ранжирующий страницы только по координатам слов, составляющих запрос, и расстоянию между ними, и проследим механизм ранжирования.

Введем запрос и получим кучу ссылок в ответ. Вверху списка будут ссылки на страницы, где наши слова встречаются точно так же, как они введены в запросе - в вашем примере это "синтаксический анализ текста". Ниже будут страницы, где искомые слова будут разделены одним словом, далее - двумя и т.д. Некоторая степень приближения к идеальной релевантности будет достигнута - но не исключена возможность хорошего ранжирования данной страницы форума - словосочетание здесь встречается, расстояние между словами минимально, а тем не менее о теме запроса здесь не говорится.

Наложим на результаты поиска link popularity в самом простейшем виде. Результаты, конечно, изменятся - вверх попадут страницы (для удобства будем считать - сайты) с большим количеством ссылок на них + минимальным расстоянием между составляющими запроса.

Добавим учет текста ссылок. Теперь вверху окажутся сайты, в тексте ссылок на которые встречаются слова из нашего запроса, + расстояние между словами запроса минимально. А между ними уже выше окажутся сайты с б'ольшим количеством ссылок на них.

Добавим учет авторитетности сайтов, ссылающихся на выведенные в результатах поиска. Этакий ВИЦ получится. Кто будет наверху? Сайты, на которые ссылаются с сайтов с большим ВИЦ с использованием слов, приведенных в запросе. Благодаря механике работы робота, так как робот просто может отложить визит на сайт по ссылке на следующий проход, но ссылку и ее текст при этом запомнить, тот или иной сайт может попасть на вершину результатов поиска, не будучи вообще проиндексированным.

Все еще не устраивает релевантность? Добавим учет тематики ссылающихся сайтов и самого сайта. Т.е. статья о синтаксическом анализе текста, размещенная на сайте анекдотов, будет ранжироваться ниже аналогичной, размещенной на сайте о лингвистике. А если статья опубликована на трех сайтах о лингвистике, то выше окажется тот, на который ведет больше ссылок с других сайтов о лингвистике и т.д.

Это будет давно ожидаемый тВИЦ.

Через такую броню методов довольно сложно пробиться случайным совпадениям, ведь, чтобы странице оказаться на вершине надо:

1. Соответствовать запросу.

2. Находиться на соответствующем теме запроса сайте.

3. Сайт должен быть популярен, причем не вообще, а в своей тематической среде.

По-моему, это почти гарантирует, что статья будет содержать нужные сведения.

Вот для полного ажура, только после всего вышеперечисленного, можно добавить click popularity. Только не так, как предлагается. Скорее стоит сделать так - если после клика на ссылку пользователь кликает еще на одну, значит, содержание страницы, на которую он попал в первый раз, не удовлетворило его и, вполне возможно, не вполне соответствует запросу. Следовательно, ранжирование этой страницы по этому запросу уменьшается.

Только нового здесь ничего нет - так пробовало делать NBCi, так, кажется, делает Altavista.

И в данном случае ценно то, что пользователь все-таки нашел, что искал - а не попытка подсунуть ему сайт, только потому, что он новый.

Стоп, а что - релевантность запросу уже значения не имеет? Только релевантность + link popularity способно обеспечить такое количество вариаций, что никаких бонусов не понадобится.

Скорее по исполнителям. С расширенной и формализованной информацией о выполняемых работах.

Теоретически, можно собрать деньги через Webmoney.

Второй вариант - у меня есть гривневый счет, можно собрать деньги на него, а в Москве провести платеж через кредитку, прикрепленную к нему.

Тоже надо подумать...

Может, лучше каталог сделать?

Хе, дык получается ,вам бы батенька, все на блюдце преподнести да?
Рассказать ,например, подробно о реализации , дать описание и остаться с....... А потом мы ,мол , подумаем и решим......

Вообще ничего не понял.

Мне алгоритм классификации вообще не нужен - это для определенности.

А смысл топика? Эго потешить?

Или попытка привлечь заинтересованных людей?

Дык получается ,вам бы батенька, все на блюдце преподнести да?

Рассказать ,например, подробно о реализации , дать описание и остаться с....... А потом мы ,мол , подумаем и решим....

:)

Кстати, совет Экслера вкупе с его черным списком очень неплохо работают.

В крайнем случае, Бат позволяет проверять почту на сервере.

Всего: 9922