Снежинск - новый алгоритм ранжирования

G00DMAN
На сайте с 19.04.2008
Offline
122
#1441
VSS:
простите, а про возраст сайта, что думает?. вот у меня есть сайт ему 15 мес от роду он старый?

Кто "что думает"? :)

Я ничего не думаю, не заметил жесткой пессимизации пока. Из собственных проектов некоторые молодые вылетели на 2-ю страницу, но по "бюджетной классификации" им там и место. :)

Кстати, про возраст. Вопрос про "старые ссылки" из той же серии, что и вопрос про "жирные" несколькими постами выше. Поделить их на кучки "молодые"/"не очень"/"старые"/древние"? ;)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
[Удален]
#1442
G00DMAN:
Дык, киньте кто-нить идею, как эти тысячи разных "жирностей" уместились в сотни признаков? На кучки анкор-файл разбили чтоле? Не, ну я еще понимаю, если бы разбили всего на две кучки по мадридскому алгоритму, но что делать с разной "жирностью"? :)

Каждому да воздастся... Каждой ссылке сотни признаков.

auit
На сайте с 19.08.2007
Offline
75
#1443

Ну как понять такое, например, по запросу "бухгалтерский аутсорсинг" в Москве мой сайт обогнала страничка www-audit.ru. Это сео-статья, да еще отдельно блок продажных ссылок. Если загнать ее в вебмастер, то получается вообще песня (см. картинку).

Что это такое?!!!

Белый папуас
wolf
На сайте с 13.03.2001
Offline
1183
#1444
G00DMAN:
Вопрос о "жирных" ссылках. К паре (запрос,документ) по словам Сегаловича прилагается всего несколько сотен признаков. А в анкор-листе документа у некоторых (не будем показывать пальцем) наберется несколько тысяч анкоров, влияющих именно на этот запрос. Естественно, что все они с разной "жирностью". Дык, киньте кто-нить идею, как эти тысячи разных "жирностей" уместились в сотни признаков? На кучки анкор-файл разбили чтоле? Не, ну я еще понимаю, если бы разбили всего на две кучки по мадридскому алгоритму, но что делать с разной "жирностью"?

Ну, может быть признак, что-то типа взвешенный tf по анкор-файлу.

Кстати, то, что один фактор (тот, которые "feature" по Сегаловичу) может в куче параметров модели сидеть - хреновый момент. В итоге зависимость результата от него может получиться ни фига не монотонная. К примеру, возьмем tf. Может, получиться, что увеличивая его значения, мы на определенных интервалах можем ухудшать результат (привет портянкам)! Причем, интервалы эти кусочно-постоянные в общем случае будут зависеть от других факторов (если в параметрах сидят произведения разных факторов). То есть tf, допустим в 10, для одного документа будет хорошим результатом, а для другого - плохим. Вот где основная засада-то...

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
zZmeIOka
На сайте с 30.05.2007
Offline
262
#1445
G00DMAN:
Поделить их на кучки "молодые"/"не очень"/"старые"/древние"

Предлагаю еще ввести категорию "мохнатые, эпохи перфокарт", и у кого они будут, сразу выставлять в топ-1, невзирая на бюджеты и оптимизаторов ;)

G00DMAN
На сайте с 19.04.2008
Offline
122
#1446
wolf:
Ну, может быть признак, что-то типа взвешенный tf по анкор-файлу.

Вопрос - как взвешенный? Если тупо-среднее, то все разруливает 1 анкор с большим российским пэйджранком (не путать с PR гугла) и бомбинг по ГС. Чтобы такие методы пресечь нужно взвешивать примерно так, как в свое время devzev предлагал со своим "трастовым окном" - строить распределение "жирности" и отсекать длинные хвосты с обеих сторон. Но это как-то маловероятно. :)

wolf:
Кстати, то, что один фактор (тот, которые "feature" по Сегаловичу) может в куче параметров модели сидеть - хреновый момент. В итоге зависимость результата от него может получиться ни фига не монотонная. К примеру, возьмем tf. Может, получиться, что увеличивая его значения, мы на определенных интервалах можем ухудшать результат (привет портянкам)! Причем, интервалы эти кусочно-постоянные в общем случае будут зависеть от других факторов (если в параметрах сидят произведения разных факторов). То есть tf, допустим в 10, для одного документа будет хорошим результатом, а для другого - плохим. Вот где основная засада-то...

Ну да. Остается уповать только на то, что на каждый хитрый MatrixNet найдутся свои метрики с винтом. :)

wolf
На сайте с 13.03.2001
Offline
1183
#1447
G00DMAN:
Вопрос - как взвешенный? Если тупо-среднее, то все разруливает 1 анкор с большим российским пэйджранком (не путать с PR гугла) и бомбинг по ГС.

Просто. Никаких пейджранков. Взять, к примеру несколько дискретных градаций "хорошести" ссылки.

[Удален]
#1448
wolf:
Просто. Никаких пейджранков. Взять, к примеру несколько дискретных градаций "хорошести" ссылки.

ключевое слово - несколько...

Вообще в целом новый алгоритм радует и не надо показывать косяки типа "бухгалтерского аутсорсинга".. - алгоритм только включили, чего вы хотите..

zZmeIOka
На сайте с 30.05.2007
Offline
262
#1449
wolf:
То есть tf, допустим в 10, для одного документа будет хорошим результатом, а для другого - плохим. Вот где основная засада-то...

Сергей, но все это можно перебороть практикой, а конкретно - перебором текстов в каждом конкретном случае... Заранее что-то предсказать невозможно, это да.

Atteon
На сайте с 13.07.2007
Offline
159
#1450
samurai:
Кстате господа :) Вот комментарий по тому запросу "А5", которые повесилил всех, от Дэна Расковалова:

DenRaskovalov
Господа, спасибо вам за вашу бурную реакцию и живой интерес
Да, эта страница нерелевантна запросу [a5]. Причины ясны. Википедия имеет на страницах "скрытый текст". Посмотрите на HTML:
<div class="printfooter">
Источник — «http://ru.wikipedia.org/wiki/%D0%A5%D1%83%D0%B9»</div>
В линках тоже %A5 встречается. Конечно, это проблема нашего токенизатора, который мог бы и должен с %-последовательностями работать так же, как и с HTML entities.
Это обидная ошибка/недочет. Будет исправлена в рабочем порядке.
Еще раз спасибо за интерес и поддержку


Что? Теперь согласно лицензии Яндекса Википедию забанят за скрытый текст? 😮

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий