Машинное обучение на службе у оптимизаторов

12
fivefinger
На сайте с 27.01.2011
Offline
87
#11

Вставлю свои пять копеек, ТС начинание однозначно похвальное и интересное, вот только на мой взгляд абсолютно бесполезное. Ну допустим вы выведите формулу для определения релевантности тех или иных сайтов в топе, у которой погрешность в лучшем случае будет +/- 100%, ну а в худшем и того больше. Ну и что дальше с ней делать? Оптимизировать те или иные факторы, основываясь на неточных данных?

Собственно к чему я клоню - не проще ли анализировать сайты, которые приходится продвигаться с точки зрения конечного пользователя и оптимизировать и доводить до ума ресурсы, делая их удобными для пользователей. Как показывает практика, подобный подход наиболее действенный для улучшения позиций/увеличения трафика (кому что угодно), а не нужны пляски с бубном в поисках формулы магического африканского тИЦа...

EvilMinds - пока другие делают вид, мы работаем на результат. (/ru/forum/936293)
N
На сайте с 08.08.2006
Offline
133
#12

Эх, вот вы взяли ТОП-30, можно даже и ТОП-50 взять, если хочется.

Напарсили этих сайтов и для себя обозначили каждый из них как фактор или параметр или еще как-то.

Вот вы теперь строите формулу с коэф и прочее.

Все это хорошо, но

Первые 10, 20, 30, 40, 50 - сайтов это не показатель того, как это должно быть, потому что изначально есть асессорская выборка. И после этой выборки обучили алгоритм, но это не факт, что обучали на этих сайта из топа, понимаете ??? Т.е. - эталона нету и что бы не считай ошибочно, при том что в ТОПе как Вы знаете не так и мало аномалий ...

Аналитик
G.Suvorov
На сайте с 27.11.2007
Offline
50
#13

ну вот тут раньше уже понаписали всякого. есть западные исследования по гуглу, на seomoz валяются, апдейты выходят временами. так "формулу" не восстановить. максимум можно определить _некоторые важные параметры_ но не более того. нужно учитывать и региональную привязку и ручной труд ассесоров и тп.

нужны данные? стучись сюда: парсеры, грабберы, data-mining (http://basilisklab.com/iru.html). РосПравосудие (http://rospravosudie.com).
NL
На сайте с 29.01.2003
Offline
212
#14

M-Borman, один мой знакомый в далеком 2007 (или около того) году делал что-то подобное. Тогда деревья были большие, как язык запросов Яндекса... Парсилась выдача по нескольким десяткам самых конкурентных запросов, далее по каждой позиции из серпа вытаскивалась доп.инфа из Яндекса. Потом все сырые данные выгружались в Эксель и уже там проводился регрессионный анализ, который никаких Америк не открывал, но помог на порядок соптимизировать бюджет в сапе, что при прочих равных позволяло рвать конкурентов в клочья.

Повторюсь, что это было в до-матрикс.нетовую эпоху, хотя по прежнему есть точка зрения, что и в новых реалиях, с преславутым машинным обучением, регрессионный анализ никто не отменял и это один из вариантов узнать о ранжировании в Яндексе побольше сотрудников Яндекса.

[Удален]
#15
M-Borman:
6) Релевантность = P1*K1+P2*K2+…

тут есть маленькая проблема: какое количество решений будет иметь данное уравнение? :)

(коэффициенты ведь могут быть и отрицательными, и отличаться в неограниченное количество раз один от другого на диапазоне от [0-1])

M-Borman
На сайте с 12.05.2007
Offline
83
#16
weblad:
не проще ли анализировать сайты, которые приходится продвигаться с точки зрения конечного пользователя и оптимизировать и доводить до ума ресурсы, делая их удобными для пользователей.

Именно поэтому я даже программиста не стал нанимать, а так сам побаловался.

(коэффициенты ведь могут быть и отрицательными, и отличаться в неограниченное количество раз один от другого на диапазоне от [0-1])

burunduk, не совсем понял почему это проблема?

А вот ссылка, которая у меня вызвала интерес к подобному методу http://boxcar2d.com/

В начале создается "машина" со случайными параметрами, самая далекоедущая становится "Родителем" появляются "дети" с мутациями, если "ребенок" лучше, то он становится "родителем". И так казалось бы из случайностей за несколько поколений появляется нормальная формула машины.

DV
На сайте с 01.05.2010
Offline
644
#17
spawnsanya:
Надо нейронную сеть прикрутить =)))

Назвать "Антияндекс".

Вы смотрите, доэкспериментируетесь, получится ещё один монстр впротивовес ПС. Сейчас более-менее всё устаканено, а как начнётся война роботов, вообще непойми что будет. Останется лишь с ностальгией вспоминать о старом добром Интернете.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
[Удален]
#18
M-Borman:
не совсем понял почему это проблема?

вариантов решения данного уравнения может быть бесконечное количество

для примера:

решая систему уравнений

R1=0,0000000000000001x+0,9725435y+0,05413356z+0,100095421w+....

R2=0,50451x+0,4552y+0,7655z+0,00004566421w+....

R3=0,2345x+0,3445005y+0,00002334z+0,00000071w+....

....

Rn=0,00045641x+0,000435y+0,999996z+0,23444w+....

где, x,y,z,w .... необходимые коэффициенты

если значения данных коэффициентов не ограничивать какими-либо условиями например, только целые и положительные в диапазоне от 0 до 100, то решений будет бесконечное множество, а если ограничить - то система может и не иметь решений :)

sanitarn
На сайте с 20.08.2007
Offline
199
#19

Вообще идея интересная, но тут нужно как мне кажется определиться, что в итоге хотим получить. Для начала бы составить все те факторы, что у вас имеются и тестить на некоммерческих запросах, там где нет ссылок вообще, в итоге может получиться удаленно просчитать внутренние факторы. Идея хорошая, с условием, что денег много и заняться нечем. А так можно впустую только время убить.

финансовый ответ (https://finansanswer.ru) Займ для безработных (https://finansanswer.ru/mikrozajmy/bezrabotnym/)
SBot
На сайте с 29.07.2008
Offline
150
#20

Вам в 2009 нужно. http://imat2009.yandex.ru/datasets

Ну и это возможно поможет. Всего будет 11 лекций. До нейросеток еще не дошли. http://shad.yandex.ru/lectures/machine_learning.xml

Следующая лекция будет про Метод опорных векторов (SVM). Как оперировать данными с олимпиады за 2099, которые по первой ссылке.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий