mhz

mhz
Рейтинг
190
Регистрация
16.05.2007
G00DMAN:
Ну можно мягче, зачем сразу "не релевантен".

Ну это я, вспомнив, какой-то из докладов РОМИП — там вроде говорилось о вариантах «Витальный», «Релевантен», «Не релевантен» или как-то так. Не было там шкалы от 0 до 100. Но это не важно же — просто пример.

G00DMAN:
Если "истинная" релевантность лежит в интервале [0..1], а релевантность у святок была например 0.6 (что давало топ-1, но при этом его могло не быть в обучающей выборке), то можно занизить "истинную" до 0.3 и добавить в обучалово. Ну это как вариант легкого тюнинга топа.

А что вы называете «истинной» релевантностю? Ту, которая получается при обсчёте алгоритмом?

Типа у сайтов из обучающей выборки (те, что для асессоров) — релевантность «асессорная», а у остальных, которых уже обученный алгоритм считает — «истинная»?

Если так, то как тогда истинную занизить вручную? Можно только заменить её на другую, асессорную. Запутался что-то, сорри 🙅

G00DMAN:
Если "ему подобные" попали в топы по тем же причинам, то они могут так же убраться, да.

Так а чем же тогда могут быть обусловлены изменения только в одной тематике? Факторы-то, наверное, по которым такие ГС попадают в серп не связаны с тематикой.

Например, был траст выкручен у ссылок каталожных старых (ну например), да у обменных — вылез святок в топ. Ему асессоры оценку хуже поставили и алгоритм, обучившись, занизил эти коэффициенты этих двух факторов ссылок, вот и улетел святок. Но ведь тематика не при чём в этом случае...

devzev:
Очень даже целесообразно. Ибо в случае глюка дал перевес некий параметр. И не исключено, что по другим запросам можно наблюдать такие же глюки.

Устранять в частном порядке глюк... да это глупо, ё-моё!

У меня такое же мнение.

ольга777:
Понятно в чём дело: когда я нарисовала здесь sfront, с которого вижу СНЕЖИНСК в основной выдаче - этот sfront сразу закрыли

Ах вот оно, в чём дело! :)

G00DMAN:
Но это только гипотеза, могут ведь обрабатывать не тематиками, а по другому принципу, например добавляя пары (q,d), которые нужно убрать из топа, занижая им "истинную" релевантность.

То есть, это означает, что они могут убирать сайты вручную и успешно делают это? Например, могут взять святок нашумевший, отдать асессорам на «более вдумчивую проверку», асессоры поставят ему «не релевантен» и данные пойдут алгоритму на обучение? Я правильно понял?

Именно в шустрости и прикол этого алгоритма. И, кстати, про "апдейты по тематике" - сейчас на буках это теоретически возможно, если асессоры нарабатывают обучающую выборку в "тематическом порядке". Т.е. обработали группу пар запрос-документ, тут же обновили обучающее множество и быстро пересчитали коэффициенты. Такие добавки в обучение не сильно должны повлиять на ранжирование в целом, а в отдельной тематике - могут.

А разве данные, полученные даже при оценке сайтов одной тематики не экстраполируются на общие правила алгоритма? Имхо, это было бы правильно (убрать, например, святок и ему подобные из всех тематик, а не из каждой по отдельности — тематик-то куча).

zZmeIOka:
А способен ли интересно Яндекс на такой трюк, все ссылки, ведущие на страницы сайта, временно рассчитывать, как ведущие на главную?

Ну, если сильно исхитриться, то наверное, способен :) Но это странное какое-то решение — имхо, морды не поэтому вылезали.

SAF:
Если из бук нажать на "Поискать то же самое текущей версией поиска →", то выдача от нынешней отличается.

Да, потому что ссылка ведёт на выдачу российского региона (225), ищите разницу в урлах. Это уже обсуждалось в топике, кстати (devzev, опередил)

Psycho:
Ну в разработке он был, видимо. Вебпрофи ведь - РБС-ная конторка.

Не понял немного. Днём просто вся адресация нормальная была, а сейчас перенесли её на поддомен. Зачем?

Что-то на www.svyatok.ru вся адресация вдруг поменялась.

Теперь весь сайт кроме морды на svyatok.webprofy.net. Интересно, почему... :)

kbv79:
Нашел в буках удаленные страницы, закрытые в роботсе и давно исчезнувшие из серпа...

Можно пару примеров в личку?

Dj Blaze, да, видать, поторопились — не работает.

lcatlas, что ж, тогда у меня вряд ли будут какие-то объяснения этому. Сам не наблюдал.

Возможно, wolf или кто-нибудь еще смогут объяснить такое.

PS: а изменения серьёзные были?

lcatlas, то есть, вы утверждаете, что мониторите много самых разных запросов в разных тематиках и по большинству ваших тематик движений в буках не было вообще, в то время как по некоторым тематикам — перетряхнуло весь топ?

При этом, всякие досадные недоразумения типа «не заметил lr=» исключены?

lcatlas:
Wolf, отбросил идею того, что апы в буках могут идти по каким-то "тематикам"

Это легко проверить и самому стандартным запросом "date=". Апдейта не было, всё тихо.

должен изменять все сайты и должен бы был быть пересчет сразу везде

А разве не ровно это произошло?

http://analyzethis.ru/?analyzer=update&searcher=yandex_beta

Просто подкрутка была малозначимых параметров. Ну еще бы! Значимые параметры, мне кажется, меняют очень редко, т. к. они уже прошли свою проверку давно.

lcatlas, а алгоритм разве не за ранжирование отвечает?

lcatlas, про цитату Садовского понял. Только мне всё равно не ясна ваша фраза:

Если брать в расчет слова Садовского, который говорит, что апы идут постоянно, но выдачу (базы) по той или иной причине они не выкладывают, мне кажется, что БУКИ (а речь сейчас именно о них), работают именно по кластерам.

То, что роботы индексируют рунет всё время — это и так понятно. То, что достаточная база индекса может быть набрана (даже несколько раз), но не выложена в поиск — тоже понятно.

Апы не идут постоянно: апы — это и есть выкладка базы. Просто яндексойды могут видеть актуальную базу всё время. Но как из этой инфы сделать вывод о том, что ранжирование в буки идёт по тематикам ("кластерам") я никак понять не могу.

Всего: 2083