albega

albega
Рейтинг
54
Регистрация
26.02.2009
dlyanachalas:
Товарищ albega, ещё раз, четко и ясно формулирую причину, по которой вам не удасться реализовать намеченное (помимо ваших вопросов из разряда "мама, я освоил арифметику!") :

Папа, не мешай работать!

dlyanachalas:
вы не сможете получить те же исходные данные, которыми оперирует формула ранжирования Яндекса. На этом - всё.

Папа, постом выше и еще выше, я написал, что не собираюсь получать все эти исходные данные, поскольку это бред сивой кобылы, равно как и предположение о том, что я их собираюсь получать.

Товарищ dlyanachalas, ваше "выведение на чистую воду" становится напряжным. Не знаю, как назвать это в терминах Луркморе, но если покопаться, что нибудь да вылезет.

Я в топике ничего не обещал, изложил свою диспозицию. Если кому то мои посты кажутся пустопорожними, мне насрать.

Я не собираюсь вычислять методологию формирования тысяч параметров Яндекса, и "функцию", которую они постоянно "оптимизируют".

dlyanachalas:
Невозможно. Это ересь от г-на "Снежинского".

Я не знаю, кто такой г-н Снежинский, "ересь" предположил на основе свои наблюдений и логики.

Тем не менее, если кто может ответить на мои вопросы или дать соотв. ссылки, было бы отлично.

dlyanachalas:
Кто-нибудь может понять, почему ТС ссылается на кого угодно, от Гудмана до Ферма, но от самого льется только пафос и обещания?

Ну чего вы ко мне пристали?

Я уже несколько раз объяснил, что сам решить задачу, по всей видимости, не способен, но есть и другие варианты.

Такой принципиальный момент, который никто не понял, я не собираюсь строить существующую ранжирующую функцию, т.к., если коротко, это бесмысленно.

Теперь, у меня есть вопрос, возможно кто-нибудь знает ответ :)

Ассесоры выдают оценки rel(q, d) по паре q-запрос, d-документ. В трех местах я встретил разные данные: из отрезка [0;1], числа от 0 до 5 и третий вариант, числа от 0 до 4. В принципе, суть одна, второй и третий варианты можно нормировать до первого, вопрос в том, можно ли ставить ограничение сверху на различное число оценок, равное 5?

Также, насколько мне известно, в машинном обучении, обучающая выборка задачи классификации, грубо говоря, бинарная. Возможно ли это с нашими rel(q, d)?

Ну и еще вопрос, возможно ли, что Яндекс метрика заменила ассесоров?

albega добавил 02.01.2010 в 19:32

dlyanachalas:
Да и она уже 19 лет назад доказана

Доказана в 95, за год-полтора до этого доказана с использованием недоказанной гипотезы или что то в этом роде :-)

Это уже называется давление. Зачем давить, если можно не давить?

Вобщем, что касается конкретики.

Не знаю, есть ли этот человек тут, на форуме, но, думаю, он один из лучших в области интернет-алгоритмов. Хозяйкам на заметку.

Попробую у него проконсультироваться на начальном этапе, хотя последнее общение - десятилетней давности.

Кстати, у него есть друг, специалист в области распознавания образов, что тоже относится к задачам классификации.

В ближайшие две недели я собираюсь ботать теорию и адаптировать ее под настоящий алгоритм Яндекса, пока по косвенным признакам. Для того, чтобы в дальнейшем выяснить, в каком "виде" алгоритм Яндекса применяет эту теорию.

Предварительный вывод: вот эта статья - пугалка для детей.

Цитата

В презентации Яндекса можно найти такой пример для функции F:

F = 3:14*log7(f9(q; d)) + ef66(q;d) + …

Из примера видно, что функции немного «странные». В этом и заключается одна из «фишек» метода – в набор функций включают абсолютно дикие экземпляры, важно, что этих функций очень много. Какой-то логики в этих функциях вообще крайне мало, важно, что любая из них вносит не очень большой вклад в общее значение релевантности. Например, для пары «запрос-документ» число прямых вхождений запроса в текст документа или в анкор-файл документа могут быть параметром в сотнях функций. Это говорит о том, что реальный вклад таких прямых вхождений для конкретного документа вычислить очень сложно даже разработчику алгоритма, тем более, что коэффициенты ak могут меняться после каждого обучения, да хоть и 10 раз в день.

Я просмотрел несколько задач с жадными функциями, там все намного проще, без диких экземпляров и вроде как даже с бинарными функциями (да/нет :))

Подготовлю свой более подробный вариант адаптации (основанный на теории и практических задачах) доклада Яндекса.

Chernoff:
ТС, вопрос такой, предположим ты апроксимируешь данный алго и получишь какие-то результаты, они применятся на практике. Через неделю после твоего ликования Я меняет алгоритм и твоя апроксимация дает не ТОП10, а ТОП 30 (или ТОП 100 ))) ) Что ты будешь делать? Доопроксимирование нового алго придет примерно к тому времени, когда будет запускаться новая версия алго. Опять же если твоя апроксимация даст ответ что для лучшей эффективности продвижения необходима ссылка с сайта www_.kremlin.ru ))) с прямым вхождением анкора ))))))))) что-то в твоей жизни измениться? Опять же если твои изыскания коснуться грамотного составления анкор листа, то покупая ссылки в тойже сапе ты полностью спалишь свои изыскания. Ну это так на вскидку ни в коем случае не желая отбить у тебя всякое желание к действию.

Не могу не ответить :)

Мне кажется, падения из топ10 в топ30-100 при последних сменах алгоритмов были связана с тем, что эти сайты, в свое время, продвинули в топы только частью параметров, за счет их многократного усиления. Также, думаю, что имеют место быть некоторые фильтры, поскольку если каждому сайту из топ-100 выставить вещественные числа, рейтинг, на основе функций ранжирования, то должна быть существенная разница между, скажем топ 10 и топ 50, следовательно, сильные падения связаны с насильным урезанием, а не с пересчетом.

Сожалею, но на вопрос не ответил.

Также, не говоря об общем, возможны успешные частности. Во многих задачах, главное отнюдь не фишиное решение, а процесс решения. Классический пример: упоминавшийся здесь ВТФ, который был сформулирован в нескольких строчках, доказывался лет 400 многими замечательными математиками всех поколений, в результате чего были открыты новые пласты математики, в этом и заключается ценность этой задаче, но не в конечном успешном доказательстве. Соотв., если пойти по "правильному" пути, могут открыться универсальные вещи (инструментарии анализа), применимые к любым алгоритмам.

Всем пока.

G00DMAN:
Покажите уровень Ваших работ по математике хотя бы.

Показывать мне нечего.

G00DMAN:
Хорошо аппроксимировать текущую функцию ранжирования Яндекса возможно, но пока есть сомнения, что Вы справитесь уже на этапе постановки задачи.

На этапе постановки этой конкретной задачи я справлюсь, только, если вы не заметили, я говорил не только об этой задаче.

Alex Klo:
это было ясно мне с первых постов ТС:

Конечно.

G00DMAN:
А что такого необычного сделали в Нигме математики?

Понятия не имею, но имхо, сделали больше, чем "запуск бота в рунет от BDBD", о чем было сказано здесь.

Вольно или невольно, тема становится флудообразной, что вдобавок отвлекает, поэтому вынужден не посещать эту тему.

Напоследок, небольшое резюме топика.

Раз

Всесоюзная олимпиада школьников по математике 1981 года - 2 место.
Московская городская студенческая олимпиала по математике (третья лига) 1982, 1983, 1984, 1985, 1986гг - первое место.

Два (взято отсюда)

успешное выступление на международных математических олимпиадах

Привел в пример некоторый параметр ранжирования :) этих людей, возможно несущественный. Но по этому параметру ваш скромный слуга может себя вычислить не на порядок ниже. Не говоря уже о "других", трижды упомянутых.

Для решения (или процесса решения) предварительно озвученных задач, безусловно должны быть задействованы другие параметры. Но, по моему мнению, эти параметры - больше дело техники и организации.

С маленьким опытом в этой области, все же предположу, что даже самые серьезные оптимизаторские компании не занимаются "моделированием алгоримов Яндекса" на уровне, выше, чем количественные оценки "параметров". Хотя, казалось бы, "чуть более чем" два человека (с необходимыми ТТХ) + инфрастуктура сделают все как надо.

Фишино, поскольку я никогда не занимался тем, чем занимаются (и долгое время) Раз и Два, что говорит об отсутствии даже базиса, но в течение разумного времени появится принципиальное понимание предмета и возможность ставить задачи.

Также, я оставляю возможность того, что был наивен до идиотства, время покажет.

amigos:
Баннерные показы АБН468х60 - 10вмз за 1млн. оптом дешевле.

Здравствуйте. Для пробы готов взять 1 млн.

k.d.r:
Они не могут склеятся. На этот вопрос никто не может дать ответ. Но пометьте там у себя, возможно при составлении алгоритма, у вас родиться ответ.

А в чем, собственно, "полезность" и применимость этого вопроса? В том, что никто не может дать ответ?

k.d.r:
Хорошо, я удаляюсь из темы, если будет нужна помощь, велкам в личку. С новым годом.

Спасибо, с наступившим.

k.d.r:
albega, это все понятно, я там текст дополнил, я продублирую. Если взять 2 одинаковых сайта, то 1 будет всегда выше, при прочих равных, почему? Вот я думаю вашей главной целью должно быть найти ответ к этому вопросу.

Вероятно потому, что два одинаковых сайта не могут стоят рядом в выдаче, т.к. склеятся :)

В общем и целом работа идет. Здесь, как человек вежливый, я пока отвечаю на поступающие вопросы, на основании имеющейся у меня информации на каждый момент времени.

dlyanachalas:
Кем определены?? Назовите хоть один параметр.

Это вопрос?

Что касается понтов, я могу привлечь более лучших математиков, чем те, кто спроектировал Нигму.

k.d.r:
В яндексе 50/50, либо ты понимаешь почему, либо ты не понимаешь почему. По другому не бывает. Насколько я понимаю, вы хотите четко составить формулы и понять как строится выдача, но у вас, как мне кажется, либо получится воспроизвести какую-то часть, либо же сделать лучше, т.к. опять же повторюсь, что в яндексе либо понятно, либо нет.

По поводу топ3, то опять же, в новом алго реализована такая интересная штука, ее многие называют маркетинговым ходом. Т.е. что для одних ГС, то для других нормальный сайт

Если опять поразмышлять, опытные оптимизаторы анализируют данные и делают выводы больше на своих системах сбора статистики, менее опытные применяют разные пульты и эффекторы, суть которых - парсинг + возможно, "формула". Как минимум, я хочу разработать наиболее правильные методики сбора данных и их обработки, а в иделае получить инструмент, в который можно загнать запрос, а он ответит детализированной стратегией продвижения этого запроса за разные периоды времени.

При этом там конечно будут не только "бюджет" и кнопка - автомат, но учет тех самых динамических факторов.

Всего: 511