виноват на счет ЯЦ,, мог бы сам почитать,
прежде чем писать. Однако, предполагаю,
что при ранжировании Yandex все же не
использует ЯЦ напрямую, а применяет что-то
вроде PageRank. Может, кто из Яндекса
прокомментирует?
Влад
[This message has been edited by vs (edited 24-07-2001).]
Рамблер стартовую страницу обрабатывает
так же, как все остальные.
Коллеги, не гадайте пож-ста про про ЯЦ и то,
почему 580 ссылок дают ЯЦ=80, а другие 200
ссылок дают ЯЦ=120 (извините, если числа
переврал). Почитайте лучше:
http://www-db.stanford.edu/pub/papers/google.pdf
или
http://www-db.stanford.edu/~backrub/pageranksub.ps
Там все про PageRank (насколько я понимаю,
он же ЯЦ) написано. Все такого рода
алгоритмы построены примерно так:
1) строится граф связей. В этот момент надо
решить несколько проблем с выбором "хороших"
связей. (учитываются ли ссылки с Free
hoster`ов, как учитываются ссылки внутри
сайта и т. д.)
2) Граф анализируется (обрабатываются циклы,
тупиковые страницы и т.д.)
3) строится стохастическая матрица переходов
4) вычисляется собственный вектор (у
стохастических матриц собственное число = 1)
Процедура устроена так, что вклад каждой
страницы "размазыватся" по всему вектору.
Возвращаясь к Web-терминологии, на PageRank
влияют не только количество страниц, с
которых ссылаются на данную, но и то, насколько авторитетны, в свою очередь, те
страницы (кто и как на них ссылается).
С уважением,
Влад Шабанов
Спасибо за информацию. Похоже, что во всех
этих случаях нам достаточно будет
передвинуть порог - чтоб выдавались только
самые весомые ассоциации. если я не
ошибаюсь, во всех примерах, которые вы
приводите, мусор идет в середине или в конце.
Да, ассоциации к запросу "релевантность"
действительно не совсем удачные (кроме,
пожалуй, первых двух, у психологов этот
термин иногда используется).
Проблема вовсе не в неустойчивости темы, а
только в объеме входной информации для
статистической обработки - ну мало людей в
сети интересуются таким словом. Если точнее,
то такой запрос подают всего 15-20 раз в
месяц.
Нам бы такие редкие запросы выбрасывать,
но пока рука не поднимается - иногда там
такие перлы попадаются!
О том, как формируются ассоциации, Игорь
написал все совершенно верно, мне бы только
хотелось внести одно уточнение:
Оказалось, что по простому (взять логи,
выделить оттуда идентификаторы пользователей
и запросы, отсортировать по времени, а
потом по частоте и т. д.) сделать не
получается - шума многовато. Уж очень много
людей одновременно со cловом "поисковая
машина" ищут "порно", "рефераты",
"знакомства" и т. д.
Пришлось строить кластеры, вычислять между
ними меры сходства, ранжировать, по хитрому
перемешивать. В результате ассоциации
"москва" и "реферат" тонут вниз, а
действительно близкие - поднимаются.
Качество работы напрямую зависит от объема
входной информации (логов) - чем
больше "вкачаешь", тем меньше мусора.
Сейчас эта штука использует логи за четыре
последних месяца. Как только в нее будут
влиты данные хотя бы за год, можно ожидать,
что ассоциации к редким запросам станут
более вразумительными.
[This message has been edited by vs (edited 18-07-2001).]
> А то я недоумевал, почему в странице
> выдачи с установками "Сайты", среди сайтов
> встречается немного (1-5) отдельных
> документов. Это, видимо, и есть "примесь"
> из TOP100.
Небольшая поправка - подмешивание top100
делается так, что если на каком-то сайте
нашлось N документов, и этот сайт входит в
пятерку лучших из top100, то он подымается
вверх целиком. При этом сообщается, что на этом сайте найден N+1 документ.
Это я к тому, что бывают запросы, на которых
в первых пяти сайтах находится по нескольку
сотен документов.
Не совсем верно. На самом деле дела обстоят
так:
Месяц назад алгоритм смешивания top100
с поиском по большой базе не менялся.
Было другое изменение - поиск по top100
(только по top100, без ИНета) был
"пересажен" на новое поисковое ядро, но
список найденных документов все также
упорядочивается по убыванию релевантности.
Подробнее:
1) поиск в Интернет. Первые 5 документов
(или сайтов, если включена группировка по
сайтам) берется из top100, причем
упорядочивается по убыванию ПОСЕЩАЕМОСТИ.
При объединении результатов поиска по
большой базе и по top100 сайты, естественно,
склеиваются, поэтому в результате первые 5
элементов списка не обязательно будут
содержать только документы top100 (а еще,
бывают запросы, по которым в top100 находятся
менньше 5 документов :-)
2) Поиск в top100 - элементы списка (здесь
группировка по сайтам не работает)
ранжируются по РЕЛЕВАНТНОСТИ.
Как проверить?
Дайте в поиске по ИНету запрос "Работа",
затем поищите в top100 URL первых сайтов
и посмотрите на статистику. Увидите, что
посещаемость у первого из найденных самая
большая.
А увидеть, что поиске в top100 ранжирует
по релевантности, можно дав там запрос
"самый удобный сервер"
Влад Шабанов, vs@rambler-co.ru
[This message has been edited by vs (edited 02-07-2001).]
Рамблер капитализацию слов в своих БД
запоминает (она нужна для того, чтобы правильно процитировать найденную страницу),
но при ранжировании пока не использует.
Даже когда начнет использовать, БОЛЬШИЕ,
ГРОМКИЕ, ЗАГОЛОВКИ весу прибявлять не
будут (ну, разьве что пользователь наберет
запрос большими буквами). Польза от учета регистра есть - запросы вида "Имя Фамилия"
будут точнее обрабатываться.
Я правильно понял, что речь идет про
http://www.rusoft.ru/ ?
Если да, то главная страница там
на flash, а этого зверя Рамблер пока не
понимает.
[This message has been edited by vs (edited 20-06-2001).]