В ближайшие две недели я собираюсь ботать теорию и адаптировать ее под настоящий алгоритм Яндекса, пока по косвенным признакам - Яндекс

137

antoca

2 января 2010, 09:59

#51

Эта тема была изначально обречена.

100

Danusya

2 января 2010, 11:21

#52

Охе и флудеры :)

Давайте подождем обещанной формулировки :)

54

albega

2 января 2010, 11:30

#53

Это уже называется давление. Зачем давить, если можно не давить?

Вобщем, что касается конкретики.

Не знаю, есть ли этот человек тут, на форуме, но, думаю, он один из лучших в области интернет-алгоритмов. Хозяйкам на заметку.

Попробую у него проконсультироваться на начальном этапе, хотя последнее общение - десятилетней давности.

Кстати, у него есть друг, специалист в области распознавания образов, что тоже относится к задачам классификации.

В ближайшие две недели я собираюсь ботать теорию и адаптировать ее под настоящий алгоритм Яндекса, пока по косвенным признакам. Для того, чтобы в дальнейшем выяснить, в каком "виде" алгоритм Яндекса применяет эту теорию.

Предварительный вывод: вот эта статья - пугалка для детей.

Цитата

В презентации Яндекса можно найти такой пример для функции F:

F = 3:14*log7(f9(q; d)) + ef66(q;d) + …

Из примера видно, что функции немного «странные». В этом и заключается одна из «фишек» метода – в набор функций включают абсолютно дикие экземпляры, важно, что этих функций очень много. Какой-то логики в этих функциях вообще крайне мало, важно, что любая из них вносит не очень большой вклад в общее значение релевантности. Например, для пары «запрос-документ» число прямых вхождений запроса в текст документа или в анкор-файл документа могут быть параметром в сотнях функций. Это говорит о том, что реальный вклад таких прямых вхождений для конкретного документа вычислить очень сложно даже разработчику алгоритма, тем более, что коэффициенты ak могут меняться после каждого обучения, да хоть и 10 раз в день.

Я просмотрел несколько задач с жадными функциями, там все намного проще, без диких экземпляров и вроде как даже с бинарными функциями (да/нет :))

Подготовлю свой более подробный вариант адаптации (основанный на теории и практических задачах) доклада Яндекса.

СМИ/Образование. Крутые СДЛ со светлым будущим. Размещение статей (/ru/forum/671055), ссылки "навсегда" (/ru/forum/671056). Визитка (http://repetitor.pro), блог (http://repetitor.pro/blog).

3

zedbiz

2 января 2010, 14:06

#54

albega:
Во-первых, сорри, что открываю такую относительно "громкую" тему, не имея "траста" :) на этом замечательном форуме.

Если по делу, возьмем три алгортима Яндекса - поисковое ранжирование, расчет тИЦ и фильтры (АГС-17, 30 и т.д.). Насколько я понимаю, кроме автоматизированного учета параметров, в последнее время в этих трех алгоритмах начали принимать участие и люди.

Что я хочу?
Построить модели этих трех алгоритмов. Когда то я был неплохим математиком, хотя уже массу времени этим не занимался и непосредственно моделированием тоже вообще не занимался, не та специализация была. Но есть хорошая теоретическая база, хотя бы для того, чтобы начать "рассматривать" эту задачу. Плюс, могу в дальнейшем привлечь к этому настоящих математиков. Точнее, людей, которые в 20-25 лет получают результаты, равнозначные серьезным докторским дисерам, а еще точнее, входят в топ 10:) математиков своего поколения (+- 5 лет).

Чтобы начать, мне нужен материал. Т.е. я на основе открытых данных строю базовую модель, скажем, первого алгортима. Затем, собираю полнейшую статистику жизни по нескольким сайтам, вбиваю в эту модель, подкручиваю, корректирую и т.д., до победного. Описано по дилетанстки, но более чем уверен, что в конечном итоге можно получить точные формулы. Понимаю, что там не только "формулы", и что поиск это крайне сложная штука, но я хочу максимально приближенно и максимально "простоформульно" это описать.

Пока все на уровне идей и более чем условно, но в первых числах января, я наверное начну "моделировать". А сейчас хочу узнать, интересно ли это кому-нибудь из тех, кто серьезно занимается продвижением?

Мне очень интересна эта тема, поскольку 2 мес. назад начал подумывать об этом, правда собственными усилиями (с одним математиком, который кстати размышляет про теорему ферма уже очень долгое время). Буду рад если есть возможность поучаствовать в проекте.😎

А по поводу высказываний коллег на форуме хочется отметить что все алгоритмы ПС просчитывали люди, а следовательно - ответ или решение любого вопроса могут дать также они, если не сломаются на середине.

693

dlyanachalas

2 января 2010, 16:00

#55

Кто-нибудь может понять, почему ТС ссылается на кого угодно, от Гудмана до Ферма, но от самого льется только пафос и обещания?

dlyanachalas добавил 02.01.2010 в 19:26

с одним математиком, который кстати размышляет про теорему ферма уже очень долгое время

А зачем о ней размышлять? Типа поразмышлял и тем самым приблизился к Великим? ;)

Да и она уже 16 лет назад доказана ;)

Яндекс кобласит Как правильно сделать title Не платил налоги к

54

albega

2 января 2010, 16:30

#56

dlyanachalas:
Кто-нибудь может понять, почему ТС ссылается на кого угодно, от Гудмана до Ферма, но от самого льется только пафос и обещания?

Ну чего вы ко мне пристали?

Я уже несколько раз объяснил, что сам решить задачу, по всей видимости, не способен, но есть и другие варианты.

Такой принципиальный момент, который никто не понял, я не собираюсь строить существующую ранжирующую функцию, т.к., если коротко, это бесмысленно.

Теперь, у меня есть вопрос, возможно кто-нибудь знает ответ :)

Ассесоры выдают оценки rel(q, d) по паре q-запрос, d-документ. В трех местах я встретил разные данные: из отрезка [0;1], числа от 0 до 5 и третий вариант, числа от 0 до 4. В принципе, суть одна, второй и третий варианты можно нормировать до первого, вопрос в том, можно ли ставить ограничение сверху на различное число оценок, равное 5?

Также, насколько мне известно, в машинном обучении, обучающая выборка задачи классификации, грубо говоря, бинарная. Возможно ли это с нашими rel(q, d)?

Ну и еще вопрос, возможно ли, что Яндекс метрика заменила ассесоров?

albega добавил 02.01.2010 в 19:32

dlyanachalas:
Да и она уже 19 лет назад доказана

Доказана в 95, за год-полтора до этого доказана с использованием недоказанной гипотезы или что то в этом роде :-)

693

dlyanachalas

2 января 2010, 16:38

#57

albega:
Ну чего вы ко мне пристали?
Я уже несколько раз объяснил, что сам решить задачу, по всей видимости, не способен, но есть и другие варианты.

Ну и зачем тогда вы нужны? Давайте сразу сюда ваших математиков ;)

Ассесоры выдают оценки rel(q, d) по паре q-запрос, d-документ. В трех местах я встретил разные данные: из отрезка [0;1], числа от 0 до 5 и третий вариант, числа от 0 до 4. В принципе, суть одна, второй и третий варианты можно нормировать до первого

Думаю, вопрос о вашей компетентности на этом опусе снят окончательно 😂

вопрос в том, можно ли ставить ограничение сверху на различное число оценок, равное 5?

Можно :)

Также, насколько мне известно, в машинном обучении, обучающая выборка задачи классификации, грубо говоря, бинарная.

О_о

Ну и еще вопрос, возможно ли, что Яндекс метрика заменила ассесоров?

Невозможно. Это ересь от г-на "Снежинского".

54

albega

2 января 2010, 17:00

#58

Товарищ dlyanachalas, ваше "выведение на чистую воду" становится напряжным. Не знаю, как назвать это в терминах Луркморе, но если покопаться, что нибудь да вылезет.

Я в топике ничего не обещал, изложил свою диспозицию. Если кому то мои посты кажутся пустопорожними, мне насрать.

Я не собираюсь вычислять методологию формирования тысяч параметров Яндекса, и "функцию", которую они постоянно "оптимизируют".

dlyanachalas:
Невозможно. Это ересь от г-на "Снежинского".

Я не знаю, кто такой г-н Снежинский, "ересь" предположил на основе свои наблюдений и логики.

Тем не менее, если кто может ответить на мои вопросы или дать соотв. ссылки, было бы отлично.

693

dlyanachalas

2 января 2010, 17:12

#59

Товарищ albega, ещё раз, четко и ясно формулирую причину, по которой вам не удасться реализовать намеченное (помимо ваших вопросов из разряда "мама, я освоил арифметику!") :

вы не сможете получить те же исходные данные, которыми оперирует формула ранжирования Яндекса. На этом - всё.

L

7

Leve

2 января 2010, 17:20

#60

ТС не забывайте чей этот форум, на первое время вы скорее всего будете им не интересны, но "Доброжелателей", к вам наверняка уже заслали :)

Что такое Power BI и зачем это нужно бизнесу

Дзен реализовал для авторов возможность вывода денег через СПБ

Моделирование алгоритмов Яндекса