Алгоритм Яндека Переколдовка зоны ссылок

Миныч
На сайте с 20.05.2006
Offline
14
16371

Хотел бы озадачить уважаемых участников форума одним вопросом.

Хочется все-таки побыстрее прояснить ситуацию с ссылочным ранжированием. Может быть кто даст намек, что помогло бы с этим разобраться (все-таки я с работниками Яндекса контактов не имел, к сожалению). Вопрос в том как "переколдовывается" Яндексом запрос в зоне ссылок?

В общих чертах система ранжирования Яндекса выглядит следующим образом (отбрасываю кучу оговорок и настройку коэффициентов):

Упростим пояснения на примере однословного запроса с одной словоформой "qq"

1. Каждому слову Яндекс приписывает вес условно равный общему числу слов во всех документах. Если слово встречается х раз, то вес этого слова уменьшается в х раз.

2. Каждому УРЛ Яндекс ........ числу слов во всех док-тах. Если УРЛ имеет х зеркал....., то вес этого УРЛ уменьшается в х раз

3. Каждой ссылке Яндекс ........ числу слов во всех док-тах. Если ссылка встречается х раз....., то вес этой ссылки уменьшается в х раз

4. Так как ссылки и УРЛ есть данные типа LITERAL (в терминологии документации на Яндекс-сервер), то вес ссылок и УРЛ со знаком звездочки на конце типа "ssss.ru/aaa*" получится делением на общее количество ссылок или Урл, начинающихся со знаков до звездочки.

5. При получении запроса Яндекс переколдовывает запрос для каждой зоны, учитываемой в ранжировании. Эта переколдовка для контента страницы явно показывается Яндексом в "Найденные слова" и для однословного запроса обычно совпадает со словом запроса, а иногда сопровождается оператором % (пример для запроса Курсы):

reqtext=Курсы::3697+&/(0+0)+!%Курсы::28860

6. Функция релевантности контента страницы пропорциональна числу слов запроса на странице (при переколдовке без процента) и корню квадратному из логарифма веса слова.

7 При переколдовке с процентом надо добавить число словоформ, удовлетворяющих словоформе с процентом с соответствующим весом "процентной" словоформы.

8. Функция релевантности обратно пропорциональна корню квадратному из некоторого целого числа (для каждой страницы оно свое), которое можно назвать "коэффициентом тошноты" страницы. Оно тем больше, чем больше спама на странице. Минимальное значение этого числа - 7 (Яндекс его может менять).

9. Для зоны "title" переколдовка чаще всего идет с процентом. Поэтому можно ожидать, что примерно каждое слово в Title в два раза весомее слова в тексте. Хотя за счет переколдовки Яндекс и здесь может это дело регулировать в любую сторону.

10. Можно полагать, что ссылочная составляющая переколдовывается как-то вроде (для запроса qq):

(qq::x url="qwerty.ru*"::y:z link="qwerty.ru*"::s:t host="qwerty.ru*"......)//мягкостьДляСсылок

И для ссылочной функции релевантности подсчет идентичен подсчету для контента со своим коэффициентом тошноты. Соответственно работают и правила "кворума" с учетом ссылочного значения для коэффициента мягкости. Если вес qq велик, то ссылки без слова qq "не работают", если мал, то работают и ссылки без слова qq (проходят по кворуму).

Само собой обозначения весьма условные и звездочки могут стоять и в других позициях и может быть оператор процента и для ссылок и УРЛ.

Вопрос вот в чем: если кто-то может помочь в уточнении формул типа 10 пункта, был бы весьма признателен. Любой намек может быть ценен

Любовь превыше всего (http://love.minich.ru/s-isaac-newton-optics.htm) # Мне нужны новые горы # И это пройдет... "Значит это любовь с первого взгляда? А разве бывает другая любовь? Гyттиэpe, Ихтиандр - моя любовь с первого взгляда." Алгоритм Яндекса поиска и ранжирования документов y M (http://www.minich.ru/business/seo)
.kero.
На сайте с 03.04.2005
Offline
142
#1

Хм, честно говоря сложно представить действие "переколдунщика", как Вы сформировали - в зоне ссылок. На первый взгляд для этого недостаточно данных (чтобы более-менее чётко сформулировать в формулу), но мысль интересная, есть над чем подумать.

OL
На сайте с 17.04.2006
Offline
63
#2
oiL-k:
Да, участились чесательные рефлексы для головы. Думаем...

Чешем дальше.

Проставление ссылок становится (ну, впрочем и раньше было) наиважнейшим делом. Каталоги приносят вред (не всегда), т .к. не редактируются. И при дальнейшем проставлении ссылок на другие запросы придется ох как их учитывать или загонять все слова в ссылки, но вести они будут на один адрес.

Завал конкурента (страницы) возможен, но сложен. Но это, видимо, происходит не из-за уменьшения веса ссылок.

Вот такой круговорот в голове.

Миныч:
которое можно назвать "коэффициентом тошноты"

Ну тогда уж "коэффициент рвоты", судя по спаму.

И для ссылочного скорее всего он тоже есть.

minaton
На сайте с 18.09.2004
Offline
135
#3
Миныч:
вес ссылок и УРЛ со знаком звездочки на конце типа "ssss.ru/aaa*" получится делением на общее количество ссылок или Урл, начинающихся со знаков до звездочки

Вот здесь может оказаться скрытая засада. Получается, что чем меньше на ссылающемся сайте страниц, тем больше он передает веса в сылочном ранжировании?

tester999
На сайте с 21.10.2004
Offline
149
#4
Миныч:
Соответственно работают и правила "кворума" с учетом ссылочного значения для коэффициента мягкости. Если вес qq велик, то ссылки без слова qq "не работают", если мал, то работают и ссылки без слова qq (проходят по кворуму).

Очччень интересно.

Хочу попросить уточнить один момент.

Если в ссылке не "qq", то ранжирование будет работать до какого-то порогового значения веса "qq" на странице, или все-таки возможен вариант "да/нет"? Ведь если, допустим, на страницу из 1000... (много) слов, ведет ссылка без "qq", а "qq" присутствует, например, только в Title (тоесть, как вы говорите, умножаем на 2), то вес "qq" вырастет до очень высокого.

Тоесть в поиске эту страницу нельзя будет найти? 😕

Avelon
На сайте с 05.07.2004
Offline
319
#5

зависимость релевантности запроса к общему числу нахождений запроса на всем сайте я не стал бы утверждать

Миныч
На сайте с 20.05.2006
Offline
14
#6
minaton:
Вот здесь может оказаться скрытая засада. Получается, что чем меньше на ссылающемся сайте страниц, тем больше он передает веса в сылочном ранжировании?

Minaton, практически про вес ссылок можно забыть, так как для наших сайтов практически все ссылки даже ссылки со звездочкой имеют одинаковый вес: вес очень редкого слова (т.е большой).

То же самое с весом УРЛ

Пример:

reqtext=link="www.biblio-globus.ru*"::2065075

reqtext=link="www.minich.ru*"::1819103916

reqtext=link="www.kvadroom.ru*"::11520529

reqtext=недвижимость::3379

Тем не менее, так как важен корень квадратный из логарифма веса слова (ссылки), то различия весов слабо влияют на ранжирование, а вот "тошнота" (спам) очень сильно.

Миныч
На сайте с 20.05.2006
Offline
14
#7
tester999:
Очччень интересно.
Хочу попросить уточнить один момент.
Если в ссылке не "qq", то ранжирование будет работать до какого-то порогового значения веса "qq" на странице, или все-таки возможен вариант "да/нет"? Ведь если, допустим, на страницу из 1000... (много) слов, ведет ссылка без "qq", а "qq" присутствует, например, только в Title (тоесть, как вы говорите, умножаем на 2), то вес "qq" вырастет до очень высокого.
То есть в поиске эту страницу нельзя будет найти?

1. Вес qq назначает Яндекс, исходя из частоты слова qq во всех документах, им проиндексированных. Этот вес не зависит от того, как часто Вы qq используете на своем сайте. Веса слов Яндекс пересчитывает очень редко, если скажу раз в год, то сильно не ошибусь.

Я имел в виду, что переколдовка запроса qq для ссылок переколдовывается яндексом в более длинный запрос путем добавления в этот запрос новых "слов":

(qq + УРЛ_ссылки + УРЛ_где_стоит_ссылка +УРЛ_.. + ВИЦ + ...)//Мягкость_для_ссылок

Вы все знаете, что для многословного запроса в выдаче Яндекса могут присутствовать найденные пассажи без слов маленького веса (кворум).

Таким образом, наличие в ссылке слова qq совсем не обязательно при малом весе qq (пассаж все равно будет найден), хотя и желателен.

Если qq есть в title и первые 15 слов в title - это уникальное для всего интернета предложение, то Яндекс Вашу страницу найдет (если по релевантности она войдет в первую тысячу). Это от ссылок уже не зависит. От ссылок будет зависеть место в выдаче.

Миныч
На сайте с 20.05.2006
Offline
14
#8
Avelon:
зависимость релевантности запроса к общему числу нахождений запроса на всем сайте я не стал бы утверждать

Включить эту зависимость в любой момент Яндексу ничего не стоит. Тем более речь идет не столько о наличии найденных страниц, сколько о "тошноте" сайта (спама на сайте).

Это не утверждается, это подгоночный параметр :)

Пока его влияние нельзя отсечь :( Возможно он действует.

M
На сайте с 12.05.2005
Offline
113
#9
Миныч:
10. Можно полагать, что ссылочная составляющая переколдовывается как-то вроде (для запроса qq):
(qq::x url="qwerty.ru*"::y:z link="qwerty.ru*"::s:t host="qwerty.ru*"......)//мягкостьДляСсылок

Можно уточнить что Вы хотите определить?

1. Пройдет ли ссылки с qq, qq1, qq2 по кворуму

2. Как переколдуется текст ссылок

3. Как переколдуется url??? какого сайта (и при чём здесь внутренние страницы)

Да, и ещё, как вы собираетесь учитывать влияние суммарного веса ссылок которые не не прошли по кворуму для qq, qq1, qq2 по логике влияние должно быть отрицательное

pro-maker
На сайте с 08.12.2003
Offline
243
#10
Миныч:
8. Функция релевантности обратно пропорциональна корню квадратному из некоторого целого числа (для каждой страницы оно свое), которое можно назвать "коэффициентом тошноты" страницы. Оно тем больше, чем больше спама на странице. Минимальное значение этого числа - 7 (Яндекс его может менять).

Тошнота - как связана с количеством спама на странице и её размером? Как спам м.б. идентифицирован спамом? Зависит ли тошнота ли от запроса?

Необходим топик "Миныч растолкованный" :)

pro-maker.ya.ru (http://pro-maker.ya.ru/)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий