vs

Рейтинг
24
Регистрация
20.06.2001
Должность
разработчик

<font face="Verdana" size="2">Originally posted by funsad:
Яндекс цитирования учитывает только количество ссылок на ресурс, а не вес страницы.

</font>

виноват на счет ЯЦ,, мог бы сам почитать,

прежде чем писать. Однако, предполагаю,

что при ранжировании Yandex все же не

использует ЯЦ напрямую, а применяет что-то

вроде PageRank. Может, кто из Яндекса

прокомментирует?

Влад

[This message has been edited by vs (edited 24-07-2001).]

<font face="Verdana" size="2">Originally posted by njnj:
как индексируются поисковиками текст фронт- странички, состоящей из текстовых ссылок( новости)на другие разделы ресурса? они индексируются так-же как просто текст?
Или есть разница?

</font>

Рамблер стартовую страницу обрабатывает

так же, как все остальные.

Влад

Коллеги, не гадайте пож-ста про про ЯЦ и то,

почему 580 ссылок дают ЯЦ=80, а другие 200

ссылок дают ЯЦ=120 (извините, если числа

переврал). Почитайте лучше:

http://www-db.stanford.edu/pub/papers/google.pdf

или

http://www-db.stanford.edu/~backrub/pageranksub.ps

Там все про PageRank (насколько я понимаю,

он же ЯЦ) написано. Все такого рода

алгоритмы построены примерно так:

1) строится граф связей. В этот момент надо

решить несколько проблем с выбором "хороших"

связей. (учитываются ли ссылки с Free

hoster`ов, как учитываются ссылки внутри

сайта и т. д.)

2) Граф анализируется (обрабатываются циклы,

тупиковые страницы и т.д.)

3) строится стохастическая матрица переходов

4) вычисляется собственный вектор (у

стохастических матриц собственное число = 1)

Процедура устроена так, что вклад каждой

страницы "размазыватся" по всему вектору.

Возвращаясь к Web-терминологии, на PageRank

влияют не только количество страниц, с

которых ссылаются на данную, но и то, насколько авторитетны, в свою очередь, те

страницы (кто и как на них ссылается).

С уважением,

Влад Шабанов

<font face="Verdana" size="2">Originally posted by AiK:
Запрос "программирование", среди ассоциаций есть и такие:
знакомства
ария
кулинария

Запрос assembler:
мелодии для мобильных телефонов
кабинет министров украины
...
rammstein

...
А "каратэ", а радио?
</font>

Спасибо за информацию. Похоже, что во всех

этих случаях нам достаточно будет

передвинуть порог - чтоб выдавались только

самые весомые ассоциации. если я не

ошибаюсь, во всех примерах, которые вы

приводите, мусор идет в середине или в конце.

Влад

Да, ассоциации к запросу "релевантность"

действительно не совсем удачные (кроме,

пожалуй, первых двух, у психологов этот

термин иногда используется).

Проблема вовсе не в неустойчивости темы, а

только в объеме входной информации для

статистической обработки - ну мало людей в

сети интересуются таким словом. Если точнее,

то такой запрос подают всего 15-20 раз в

месяц.

Нам бы такие редкие запросы выбрасывать,

но пока рука не поднимается - иногда там

такие перлы попадаются!

О том, как формируются ассоциации, Игорь

написал все совершенно верно, мне бы только

хотелось внести одно уточнение:

Оказалось, что по простому (взять логи,

выделить оттуда идентификаторы пользователей

и запросы, отсортировать по времени, а

потом по частоте и т. д.) сделать не

получается - шума многовато. Уж очень много

людей одновременно со cловом "поисковая

машина" ищут "порно", "рефераты",

"знакомства" и т. д.

Пришлось строить кластеры, вычислять между

ними меры сходства, ранжировать, по хитрому

перемешивать. В результате ассоциации

"москва" и "реферат" тонут вниз, а

действительно близкие - поднимаются.

Качество работы напрямую зависит от объема

входной информации (логов) - чем

больше "вкачаешь", тем меньше мусора.

Сейчас эта штука использует логи за четыре

последних месяца. Как только в нее будут

влиты данные хотя бы за год, можно ожидать,

что ассоциации к редким запросам станут

более вразумительными.

С уважением,

Влад Шабанов

[This message has been edited by vs (edited 18-07-2001).]

[This message has been edited by vs (edited 18-07-2001).]

[This message has been edited by vs (edited 18-07-2001).]

&gt; А то я недоумевал, почему в странице

&gt; выдачи с установками "Сайты", среди сайтов

&gt; встречается немного (1-5) отдельных

&gt; документов. Это, видимо, и есть "примесь"

&gt; из TOP100.

Небольшая поправка - подмешивание top100

делается так, что если на каком-то сайте

нашлось N документов, и этот сайт входит в

пятерку лучших из top100, то он подымается

вверх целиком. При этом сообщается, что на этом сайте найден N+1 документ.

Это я к тому, что бывают запросы, на которых

в первых пяти сайтах находится по нескольку

сотен документов.

Влад

<font face="Verdana" size="2">Originally posted by wolf:
Ну как сказать... Первые пять результатов поиска Рамблера берутся из поиска по Rambler's Top 100. Причем до начала месяца это были именно первые пять результатов поиска по Rambler's Top 100. Так что, если в Top100 твой сайт в первой пятерке по какому-нибудь запросу, то он был в первой пятерке и в Рамблере по тому же запросу. Теперь, алгоритм выбора пятерки сайтов-"счастливчиков" из Top100 изменился (т.е. сейчас НЕ берутся первые пять сайтов из поиска по Top 100, а выбираются они как-то по-другому), и, видимо, твой сайт в нее не попал.

[This message has been edited by wolf (edited 01-07-2001).]
</font>

Не совсем верно. На самом деле дела обстоят

так:

Месяц назад алгоритм смешивания top100

с поиском по большой базе не менялся.

Было другое изменение - поиск по top100

(только по top100, без ИНета) был

"пересажен" на новое поисковое ядро, но

список найденных документов все также

упорядочивается по убыванию релевантности.

Подробнее:

1) поиск в Интернет. Первые 5 документов

(или сайтов, если включена группировка по

сайтам) берется из top100, причем

упорядочивается по убыванию ПОСЕЩАЕМОСТИ.

При объединении результатов поиска по

большой базе и по top100 сайты, естественно,

склеиваются, поэтому в результате первые 5

элементов списка не обязательно будут

содержать только документы top100 (а еще,

бывают запросы, по которым в top100 находятся

менньше 5 документов :-)

2) Поиск в top100 - элементы списка (здесь

группировка по сайтам не работает)

ранжируются по РЕЛЕВАНТНОСТИ.

Как проверить?

Дайте в поиске по ИНету запрос "Работа",

затем поищите в top100 URL первых сайтов

и посмотрите на статистику. Увидите, что

посещаемость у первого из найденных самая

большая.

А увидеть, что поиске в top100 ранжирует

по релевантности, можно дав там запрос

"самый удобный сервер"

С уважением,

Влад Шабанов, vs@rambler-co.ru

[This message has been edited by vs (edited 02-07-2001).]

<font face="Verdana" size="2">Originally posted by Green Peace:
Как к этому относятся Rambler & Yandex?</font>

Рамблер капитализацию слов в своих БД

запоминает (она нужна для того, чтобы правильно процитировать найденную страницу),

но при ранжировании пока не использует.

Даже когда начнет использовать, БОЛЬШИЕ,

ГРОМКИЕ, ЗАГОЛОВКИ весу прибявлять не

будут (ну, разьве что пользователь наберет

запрос большими буквами). Польза от учета регистра есть - запросы вида "Имя Фамилия"

будут точнее обрабатываться.

С уважением,

Влад Шабанов

Я правильно понял, что речь идет про

http://www.rusoft.ru/ ?

Если да, то главная страница там

на flash, а этого зверя Рамблер пока не

понимает.

Влад Шабанов

[This message has been edited by vs (edited 20-06-2001).]

Всего: 129