Для начала нужно определиться, что в итоге хотим получить - Яндекс

Машинное обучение на службе у оптимизаторов

M-Borman · 2012-03-26T14:08:50.0000000Z

Когда-то давно делал такую штуку (я не математик и не программист, опишу простыми словами): 1) Брал несколько коммерческих нч запросов близкой тематики (хотелось взять запросы на которые минимум бы влияли пФ и для которых, предположительно одинаково рассчитывается релевантность ) 2) Вбивал эти запросы в allsubmitter и парсил ТОП30 сайтов по каждому из запросов. 3) Парсил все возможные параметры (P) для каждого сайта, которые только мог allsubmitter и Solomono по каждому сайту (около 40 насколько помню). 4) Все спарсенные параметры привел к одной «размерности» (не знаю как это точно называется) 5) Забацал несколько вариантов формул, для наглядности напишу просто: 6) Релевантность = P1*K1+P2*K2+ 7) Скрипт наугад генерирует коэффициент (K) для каждого параметра, подставляет эти коэффициенты для параметров каждого сайта и получает значение релевантности для каждого сайта. Например, получаем топ1=40 релевантность, топ2= 180, топ3 =20. и т.д. до топ30. Бред короче, не соответствует местам в топе. 8) Скрипт подсчитывает насколько значение полученной релевантности сайтов не соответствует положению в реальном топе (например, несоответствие 900, чем меньше тем ближе к реальным местам в топе) . 9) Генерируем коэффициенты 20 раз, выбираем пару наборов коэффициентов («родители»), при которых несоответствие минимально (например, 870 и 860). 10) Для следующего просчета релевантности берем часть коэффициентов от «родителей» из предыдущего пункта, часть с небольшим случайным изменением, часть абсолютно новых. Получаем новые 20 наборов коэффициентов. Опять подставляем их в формулу, выбираем среди них лучших по значению «несоответствия», если «дети» хуже «родителей», то оставляем «родителей». 11) Повторяем пункт 9 и 10 столько раз, пока несоответствие не станет равно нулю. В результате получаем коэффициенты, которые при подставке в нашу формулу выдают релевантность сайта, которая точно коррелирует с позицией сайта в топе. Например, Топ1 = 200, топ2= 180, топ3=175 и т.п. Ну и глядя, на коэффициенты, можно определить какой параметр более значим. На практике у меня ничего толкового, как и ожидалось (делал с php для чайников), не получилось, «несоответствие» опустилось с 900 где-то до 200, пару раз завис «денвер» из-за кривого кода, понял, что маловато знаний и я забил на это дело. Ну, ещё понимал, что слишком мало параметров сайта спарсено, да и их качество плохое. Нужен свой парсер, сервера, математики и программисты. В общем, хочу услышать ваши мнения по этому поводу, можно ли спарсить и просчитать сотни или тысячи параметров и подогнать их под формулу Яндекса. Ну типа «мегапультэфекторсолоруки давно уже это сделали» или «это всё не поможет» и другие. Мое мнение, при хороших ресурсах (математики, программисты, сервера) это выполнимая задача.

87

fivefinger

26 марта 2012, 20:36

#11

Вставлю свои пять копеек, ТС начинание однозначно похвальное и интересное, вот только на мой взгляд абсолютно бесполезное. Ну допустим вы выведите формулу для определения релевантности тех или иных сайтов в топе, у которой погрешность в лучшем случае будет +/- 100%, ну а в худшем и того больше. Ну и что дальше с ней делать? Оптимизировать те или иные факторы, основываясь на неточных данных?

Собственно к чему я клоню - не проще ли анализировать сайты, которые приходится продвигаться с точки зрения конечного пользователя и оптимизировать и доводить до ума ресурсы, делая их удобными для пользователей. Как показывает практика, подобный подход наиболее действенный для улучшения позиций/увеличения трафика (кому что угодно), а не нужны пляски с бубном в поисках формулы магического африканского тИЦа...

EvilMinds - пока другие делают вид, мы работаем на результат. (/ru/forum/936293)

В выдаче Яндекса стало ROOKEE запустили первый модуль Александр Садовский «Новые принципы

N

133

Nicola

26 марта 2012, 20:51

#12

Эх, вот вы взяли ТОП-30, можно даже и ТОП-50 взять, если хочется.

Напарсили этих сайтов и для себя обозначили каждый из них как фактор или параметр или еще как-то.

Вот вы теперь строите формулу с коэф и прочее.

Все это хорошо, но

Первые 10, 20, 30, 40, 50 - сайтов это не показатель того, как это должно быть, потому что изначально есть асессорская выборка. И после этой выборки обучили алгоритм, но это не факт, что обучали на этих сайта из топа, понимаете ??? Т.е. - эталона нету и что бы не считай ошибочно, при том что в ТОПе как Вы знаете не так и мало аномалий ...

Аналитик

РИФ+КИБ 2011: Станислав Ставский Оценки асессоров: прибивают ли Внутренние поведенческие факторы сайта

50

G.Suvorov

26 марта 2012, 20:54

#13

ну вот тут раньше уже понаписали всякого. есть западные исследования по гуглу, на seomoz валяются, апдейты выходят временами. так "формулу" не восстановить. максимум можно определить _некоторые важные параметры_ но не более того. нужно учитывать и региональную привязку и ручной труд ассесоров и тп.

нужны данные? стучись сюда: парсеры, грабберы, data-mining (http://basilisklab.com/iru.html). РосПравосудие (http://rospravosudie.com).

Факторы ранжирования в Яндексе Исследование: Декодирование реферальной строки Яндекс улучшил формулу авторасстановки

NL

212

NULL

26 марта 2012, 21:23

#14

M-Borman, один мой знакомый в далеком 2007 (или около того) году делал что-то подобное. Тогда деревья были большие, как язык запросов Яндекса... Парсилась выдача по нескольким десяткам самых конкурентных запросов, далее по каждой позиции из серпа вытаскивалась доп.инфа из Яндекса. Потом все сырые данные выгружались в Эксель и уже там проводился регрессионный анализ, который никаких Америк не открывал, но помог на порядок соптимизировать бюджет в сапе, что при прочих равных позволяло рвать конкурентов в клочья.

Повторюсь, что это было в до-матрикс.нетовую эпоху, хотя по прежнему есть точка зрения, что и в новых реалиях, с преславутым машинным обучением, регрессионный анализ никто не отменял и это один из вариантов узнать о ранжировании в Яндексе побольше сотрудников Яндекса.

Вебмастера жалуются на фейковые Яндекс о правильной работе Яндекс.Метрика: анализ доходов и

[Удален]

26 марта 2012, 21:48

#15

M-Borman:
6) Релевантность = P1*K1+P2*K2+…

тут есть маленькая проблема: какое количество решений будет иметь данное уравнение? :)

(коэффициенты ведь могут быть и отрицательными, и отличаться в неограниченное количество раз один от другого на диапазоне от [0-1])

83

M-Borman

27 марта 2012, 07:00

#16

weblad:
не проще ли анализировать сайты, которые приходится продвигаться с точки зрения конечного пользователя и оптимизировать и доводить до ума ресурсы, делая их удобными для пользователей.

Именно поэтому я даже программиста не стал нанимать, а так сам побаловался.

(коэффициенты ведь могут быть и отрицательными, и отличаться в неограниченное количество раз один от другого на диапазоне от [0-1])

burunduk, не совсем понял почему это проблема?

А вот ссылка, которая у меня вызвала интерес к подобному методу http://boxcar2d.com/

В начале создается "машина" со случайными параметрами, самая далекоедущая становится "Родителем" появляются "дети" с мутациями, если "ребенок" лучше, то он становится "родителем". И так казалось бы из случайностей за несколько поколений появляется нормальная формула машины.

ЮMoney выпустили карты и Google поделился советами по Будущее SEO: пять тенденций,

DV

644

DenisVS

27 марта 2012, 07:07

#17

spawnsanya:
Надо нейронную сеть прикрутить =)))

Назвать "Антияндекс".

Вы смотрите, доэкспериментируетесь, получится ещё один монстр впротивовес ПС. Сейчас более-менее всё устаканено, а как начнётся война роботов, вообще непойми что будет. Останется лишь с ностальгией вспоминать о старом добром Интернете.

1

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )

Подростки старше 13 лет Google: Частое сканирование не Другой подход к контекстной

[Удален]

27 марта 2012, 08:26

#18

M-Borman:
не совсем понял почему это проблема?

вариантов решения данного уравнения может быть бесконечное количество

для примера:

решая систему уравнений

R1=0,0000000000000001x+0,9725435y+0,05413356z+0,100095421w+....

R2=0,50451x+0,4552y+0,7655z+0,00004566421w+....

R3=0,2345x+0,3445005y+0,00002334z+0,00000071w+....

....

Rn=0,00045641x+0,000435y+0,999996z+0,23444w+....

где, x,y,z,w .... необходимые коэффициенты

если значения данных коэффициентов не ограничивать какими-либо условиями например, только целые и положительные в диапазоне от 0 до 100, то решений будет бесконечное множество, а если ограничить - то система может и не иметь решений :)

ROI для SEO: Как Вознаграждение за результат в Обмани меня, если сможешь:

199

sanitarn

27 марта 2012, 08:51

#19

Вообще идея интересная, но тут нужно как мне кажется определиться, что в итоге хотим получить. Для начала бы составить все те факторы, что у вас имеются и тестить на некоммерческих запросах, там где нет ссылок вообще, в итоге может получиться удаленно просчитать внутренние факторы. Идея хорошая, с условием, что денег много и заняться нечем. А так можно впустую только время убить.

финансовый ответ (https://finansanswer.ru) Займ для безработных (https://finansanswer.ru/mikrozajmy/bezrabotnym/)

5 SEO-тактик для максимизации Алексей Штарев: «Я пропагандирую Скорость реакции один из

150

SBot

30 марта 2012, 20:59

#20

Вам в 2009 нужно. http://imat2009.yandex.ru/datasets

Ну и это возможно поможет. Всего будет 11 лекций. До нейросеток еще не дошли. http://shad.yandex.ru/lectures/machine_learning.xml

Следующая лекция будет про Метод опорных векторов (SVM). Как оперировать данными с олимпиады за 2099, которые по первой ссылке.

Поиск похожих документов - Крутая тема появляется раз Умер основатель lendmoney.ru Захар

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что делать, чтобы попасть в ответы Google Bard

Машинное обучение на службе у оптимизаторов