G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
euhenio:
-а почему тогда сеопульт пишет, что заказали?

и что было первично-то - заказ или свой интерес?

Пишет потому, что какие-то устные обязательства он на себя тогда взял. Да и потом плотно участвовал, например готовил и периодически обновлял все данные, покупал ссылки.

elseif, Вы попутали "витальный" на РОМИПе и "витальный" в Яндексе. Это совершенно разные витальные. :)

Витальный РОМИПа - это "полезный" или "релевантный+" в Яндексе.

Витальный в Яндексе - это однозначно лучший ответ, равных которому практически нет. За исключением некоторых случаев, когда таких витальных больше одного.

elseif:
Здравого смысла чьего - пользователя или оптимизатора/владельца сайта?

Желания владельцев сайтов или оптимизаторов волнуют только их самих. Всем остальным в коммерческой выдаче нужно получить желаемый товар/услугу отличного качества с первой страницы выдачи. А это пока не всегда получается.

euhenio:
в сеопульте написано, что они заказали исследование год назад.

G00DMAN, а что тут было первично - отработать "грант" от сеопульта (и отделаться чемнить непонятным) или таки свое собственное исследование?

Дык, "заказали" и "дали грант" - вообще разные действия, по поводу "гранта" вопрос решился только недавно. :D

Задача была любопытной, с не очевидной концовкой. Все же решение ни разу не стандартное.

Ну и получить грант и потом что-то выкатить никогда бы не получилось - никто в СЕО-отрасли в счет будущих побед такого бабла не дал бы. Так что все финансировалось на свои, и Амазон вместе с пиндосовскими спецами для MapReduce выпили не мало русской крови. :)

mexboy:
Илья, а гляньте еще в своей шпаргалке, что за новые факторы, которые Яндекс обозвал "и еще кое-что о чем мы вам не скажем" на Кибермаркетинге :)

Мне регулярно никто ничего не сливает, только иногда и все это слегка случайным образом происходит. От меня процессы не зависят, т.к. мне тайны Яндекса не нужны. Я могу только прокомментировать то, что как-то вытащили другие люди и мне показали на 5 сек. Поэтому про новые факторы не знаю ничего. :)

Yagor:
Да. Никаких промежуточных выкладок, аналитических зависимостей оценки эффективности, результатов вычислительных экспериментов и прочих фактических материалов, подтверждающих факт проведения работ и достигнутые результаты. Вместо этого словоблудие про космические корабли и большой театр + в конце, как чёрт из табакерки, тривиальная скопипастенная формула, не имеющая никакой научной новизны. С тем же успехом могли бы y(x)=sin(x) написать - содержательная часть писанины не изменилась бы...

Про космические корабли не нужно. "Псевдо-", примененное к слову "наука", однозначно трактуется как "лже-". Покажите лживые утверждения в моих статьях. Если Вы с какого-то перепугу решили, что формула в конце статьи является ее заключением, то либо Вы статью не читали, либо ничего не поняли. Попробую объяснить: эта формула дается уже после заключения, когда мы (для прикола) предлагаем метод для определения условной эффективности отдельного донора. Эффективность условная, она прокатит разве что как прикольная пузомерка, если в Сеопульте ее когда-нибудь посчитают. К самой статье эта формула не имеет отношения.

И Вы что, предлагаете в случае банального подсчета невязки формул никогда не писать? Они ведь стандартные. Забавный подход. Вы хоть одну математическую статью в своей жизни написали? Покажите.

Ида - я выше задал вопрос: что Вы из себя представляете в IR? Вы отметили, что занимаетесь информационным поиском, в других постах уже неоднократно рассказали про своих студентов. Где Ваши труды? Неужели их нет? ;)

Yagor:
Дружище

Смените тон, юноша.

Yagor:
формулы (точнее, кракозябры, стилизованные под них) я видел, и каллиграфия вызвала возмущение. А РОМИП поминать не надо - там, как подсказывает google, вы парили почтенную публику на совершенно другую темы «Использование спектральных характеристик лексем для улучшения поисковых алгоритмов» и «Метод контекстно-зависимого аннотирования документов на основе спектральных оценок лексем».
И какого вы втюхиваете ваши метрики, если ранжирует Яндекс и по своим?!... :)

Еще раз предлагаю сменить тон. На РОМИПе я не парил публику, а рассказывал о своих исследованиях, которые, во-первых, прошли независимую проверку у асессоров РОМИПа, а во-вторых - легко верифицируемы. Если Вы считаете, что мы кого-то парили, то покажите свои верифицируемые исследования, в которых Вы никого не парите. :D

Наши метрики работают лучше, чем метрики Яндекса, поэтому мы их и используем. На факторах Яндекса построить устойчивые частотные паттерны не получилось, кстати. Хотя факторы Яндекса нам известны.

Yagor:
Простым же русским языком написано: ср. знач. - то есть математическое ожидание параметра - достижимо при чрезвычайно большом многообразии комбинаций отдельных значений.
Очевидно.

А при чем тут среднее значение? Зачем Вы его вообще сюда приписали? :D

Yagor:
Из основ математической статистики

Ну так поведайте нам основы, из которых следует, что:

Yagor:
Ещё раз, принципиально важно следующее: частотное распределение не отражает сами уникальные комбинации параметров, которые породили это распределение.

Вы перепутали распределение со средним значением, которое действительно не отражает. Путаетесь в школьных терминах, аднака... :D

Yagor:
Например, "1. Эффективность множества доноров"... ))
Но вы же не продвигали сайты, по которым якобы что-то оценивали... )))
О каком ещё достижении ТОП-а вы грузите?!

В статьях написано о том, сколько сайтов продвигалось. И сколько из них вышло в топ. Какую еще оценку эффективности Вы хотите? Все вроде и так должно быть понятно. Или не? :)

Yagor:
Значит это ровно то, что никакой научной новизны в ваших кракозябрах не обнаружено. Фрагментарные заимствования - как салат оливье.

Чтобы говорить о научной новизне, покажите для начала Ваши научные работы в IR, еще раз повторю. Продолжим после. :)

Yagor:
Частотные паттерны определяются алгоритмом ранжирования - очевидно - и не могут не измениться при изменении алгоритма. Не обманывайте людей. Грешно это.

Вы ведь не видели результатов. :D

Большая часть частотных паттернов осталась неизменной на протяжении 8-ми месяцев, пережив не только апдейты, но и пересчеты формулы матрикснета. :)

Yagor:
Ну, давайте, немножко позанимаемся арифметикой...

ТОП-50, у каждого сайта из выдачи, предположим, 2 000 доноров - итого 100 000 доноров.
Продвигаемый сайт двигается, например, по 100 запросам (цифры все средние) - итого 100 * 100 000 = 10 млн. доноров.
Каждый донор измеряется по 184 параметрам - то есть 184 * 10 млн. = 1 млрд. 840 млн. параметров, для которых надо выкачать страницы из интернета и обмерить. И это всё только для ОДНОГО продвигаемого сайта!!! А ведь мы только подготовили исходные данные, а впереди ещё колоссальные по вычислительной нагрузке статистические расчёты...

Фантастика, которая ещё не скоро станет явью.

В среднем на топ-50 гораздо меньше доноров. И кто Вам сказал, что при расчете нужно что-то скачивать? Забавное предположение. Все заранее проиндексировано, построение паттерна занимает незначительное время. Нахождение нужных доноров - уже большее, в среднем около 2 секунд на запрос. Понятно, что для ВЧ/ВК время существенно больше.

Yagor:
Автору, для начала, следует разобраться с тем, как сегодня работает ранжирование Яндекса. Недавно Расковалов опубликовал ряд весьма любопытных лекций.

Расковалов прочитал простенькие лекции для студентов, рассказав об очевидных и известных вещах. Если для Вас это оказалось любопытным, то у Вас еще все впереди. ;)

Yagor:
goodman - а кто это?

Это я, есличо.

Yagor:
М-да...
Прочитал. http://www.altertrader.com/publications25.html - псевдонаучный бред оставляет тягостное ощущение... Ранее я уже писал, что большинство "технологий" в seo - развод несчастных, но чтобы настолько цинично и беспринципно.

Подробнее про "псевдо" можете прокомментировать? :)

Yagor:
Как?! Как возможно и зачем вообще оптимизировать по тем параметрам, на которые поисковым машинам наплевать?! И откуда можно было нарыть 184 трешака, о которых даже Яндекс не знает? Количество запятых красного цвета считали?!..

Затем, чтобы получить нужный результат. Если Вам не понятен подход, примененный нами в данном случае, то ничего не поделаешь, сходите в школу. "Даже Яндекс" и "трешак" позабавили. Вы ведь не видели формул, но уже сделали вывод. А на основании чего и что Вы из себя представляете в IR, чтобы делать такие заключения вслепую? Я это спрашиваю по праву специалиста - наши метрики обыгрывают яндексовые на реальных тестах в рамках РОМИПа. А ваши? :D

Yagor:
Частоты встречаемости отдельных значений параметров – то есть средняя температура по больнице (у одного 32, у другого 41,2 – в результате 36,6) не значат ровным счётом ничего. Важны уникальные комбинации параметров, информация о которых в частотных паттернах не содержится и не может содержаться в математическом смысле… Автору, для начала, следует разобраться с тем, как сегодня работает ранжирование Яндекса. Недавно Расковалов опубликовал ряд весьма любопытных лекций.

Вы спутали распределение со средним значением. Вам в школу, юноша, за парту.

Yagor:
Автор начинает за здравие, а заканчивает за упокой… Какая разница, сколько подмножеств в бирже, бери любое работать будет. Ещё раз, принципиально важно следующее: частотное распределение не отражает сами уникальные комбинации параметров, которые породили это распределение.

Откуда вывод, что не отражает? В нашем случае показано обратное, результаты экспериментов видели в статьях? :)

Yagor:
Поясню. У вас есть 1, 20, 19, 32 и 11 = среднее значение 16,6. Внимание, вопрос! Какие ещё значения могут дать в среднем 16,6? Правильный ответ – любые! Например: 1, 1, 1, 1, 79 = среднее тоже 16,6 И какое распределение брать?!..

А при чем тут какое-то среднее? Вы на уровне определений не понимаете, зато сделали кучу замечательных выводов. :)

Yagor:
Гы, ну целевая функция невязки приведена (скопипастена откуда-то, наверное…), но где же пресловутая Мера Эффективности, о которой столько говорится?! То есть как после процесса минимизации рассчитывается оценка эффективности результата и, самое интересное, как она проверяется?!...

Что за "пресловутая Мера Эффективности, о которой столько говорится"? Приведите несколько цитат про эту меру. Целью экспериментов был вывод документов в топ, вывелось 100%. При этом эффективность Вам не понятна?

Yagor:
Вообще, прикольная писанина, есть несколько вводных псевдоматематических посылок и не отражающая существо решения задачи стыренная ф-ла невязки. А деньги?! (с)

Еще раз - будьте добры поподробнее про псевдо. :D

И что значит "стыренная формула невязки"? Невязка считается стандартным методом, что в нем стырено? :D

Yagor:
Ой! Автор увлёкся и совершенно забыл, что прежде чем считать на адронном кластрайдере ( :) ), параметры ещё надо получить – то есть выкачать и распарсить доноров. А это, при среднем времени загрузки странички, долгие века… )
А потом Бац! - и очередной апдейт Яндекса! )))

Очередной апдейт, и что дальше? Частотные паттерны достаточно устойчивы к апдейтам, некоторые прожили 8 месяцев в этих апдейтах без изменений. А топ менялся конечно, и не раз. :)

Yagor:
Забавно. Утверждается, что разбиение задачи на части ускоряет процесс. Это каким же чудесным образом пропала необходимость «сшивания» результатов и поиска всё тех же многострадальных комбинаций? Чудеса…

Почему пропала? :D

Yagor:
Ладно, надоело комментировать чушь.
Я всё сказал.

И развеселил старика гудмана, молодец. :)

Yagor:
занимаюсь информационным поиском, и дал свои комментарии по существу. Оказалось, не в бровь, а в глаз...

Оказалось пуком в лужу. Может там и плавал чей-то глаз, хз.

mikes:
А откуда известно, что не использует? Я что-то пропустил? ;)

Не, это я забыл. В башке все эти факторы не укладываются. :D

Сейчас специально посмотрел - использует. Как и кучу других клик и хост ранков. За многие из которых я бы боллзы кой-кому открутил. :)

mikes:
Уверен, что ведущие поисковые системы используют Browserank/Clickrank. Да, в Яндексе сильны кликовые факторы в выдаче, но это не означает, что не используется другая информация о поведении пользователей.

Это означает немного другое - правильная накрутка кликов рвет любой топ, как Тузик футболку с лого Яндекса. :D

mikes:
Вот в достоверности этой оценки и есть основная засада. На мой взгляд, по НЧ Яндекс существенно проигрывает Гуглу.

Это все субъективно. Нужно разрабатывать нормальную метрику качества, особенно для коммерческих ВК/ВЧ. Если есть идеи - нужно обсуждать.

И при чем тут Гугл? Я же написал - лучше Арзамаса, причем скорее всего существенно лучше по внутренним метрикам Яндекса.

mikes:
Browserank - существенное развитие примитивной модели Pagerank'а, ибо клики и время сессии существенно лучше коррелируют с важностью документа, чем ссылки. Этот поведенческий тренд меня радует.

Ну хз, на сколько оно развитие. Вот Яндекс не юзает. Остальные - не известно, скорее всего аналогично. :)

mikes:
В логах получателей трафика? Имхо, тоже больше.

В логах Яндекса.

mikes:
Но огорчают принципиальные ограничения MatrixNet'а. Например, жесткая зависимость качества от количества и глубины оценок, что приводит к плохому ранжированию по длинным НЧ (а это половина трафика, на минуточку). По сути, MatrixNet хорошо справляется с переранжированием уже неплохой выдачи. Но что делать, если хороший ответ на запрос остался вне поля внимания асессора? Насколько я понял, задач вида "найти лучший ответ на запрос" у асессоров сейчас нет.

Не, все как раз наоборот. :)

Понятно, что любая сегодняшняя формула ранжирования имеет проблемы именно вне "обученных" запросов. Но, если говорить о Яндексе, то Матрикснет как раз и отличается от прошлых полиномов типа Арзамаса тем, что гораздо лучше экстраполируется на весь пул запросов. Это по оценкам Яндекса, конечно, другие внятные оценки не известны, субъективные не катят. :)

Ну и что касается ранжирования на обученных коммерческих запросах - там-то как раз и траблы. Качество хорошее с т.з. пифаунда и убогое с т.з. здравого смысла и реалий. :D

богоносец:
Не «не хочет», а не может...

Мог бы пытаться, но пока интереса не видно, по крайней мере с моей деревенской колокольни. :)

mikes:
Ну, есть безусловно сильные решения. Например, переход от pagerank к browserank. Не все так плохо ;)

Что за переход? Пэйджранк до сих пор является одним из важных факторов ранжирования в Яндексе, хотя и не самым топовым. Хотя торжественное заявление Садовского "Матрикснет победил пэйджранк" - это не успех, а беда ранжирования. Плохо, что не все в Яндексе это понимают. :)

mikes:
Больше. Половина запросов - под планкой 30 в вордстате

По количеству уникальных запросов - больше, по доле этих НЧ в логах - меньше.

Всего: 1960