При чем тут Сегалович? Гнилая отмазка, тебе и без Сегаловичей крыть нечем. :)
Дык, мелите вы с Миражом в своей ветке. Иногда забавно читать. Но заметь - я вам там не мешаю стричь паству, я же понимаю, что нужно семьи кормить и т.д. :D
Ты хочешь, чтобы я тебе технологии по полочкам разложил нахаляву? Наивняк, не дождешься. Я и так много чего даю, остальное придется своими силами.
Каких "спонсеров"? В вашем СЕО интересных денег нет в целом, так что и "спонсеров" быть не может. Я на сегодня не вижу в отрасли кандидатов на мерялку по собственному баблу. :D
Ну я еще со времен ввода матрикснета говорил, что найти метрики, не плохо коррелирующие с выдачей теоретически возможно. И рекомендовал это делать. Восстановить же формулу нельзя, потому что нет ее там. :D
lexxx, спасибо, но у нас и не было такой цели вообще. Мы надеялись на серединку, чтобы не в конец списка попасть. Цель была не померяться ранжированием, а протестировать наши частотные базы ICLF и %ICLF, в сравнении с классикой на IDF. Тестирование закончилось отлично, IDF не катит, классическая поисковая наука попячилась. :D
Что касается бодалова с матрикснетом Яндекса, который пока всех переигрывает, то задача конкретно не простая, но мы будем пытаться. Может и получится забодать. :)
В данном случае это означало, что прогнозное значение попало в нужный диапазон. Подробнее инфы не будет.
Не, ты наверное не понял. Сайты, отловненные по АГС, попали в выборку с характеристиками до момента убийства, а не после. Плюс длинная история параметров. Потому и было потрачено некоторое время на отлов, чтобы получить в том числе и ситуацию в момент наложения, когда уже, но ссылки еще не успели снять. И точное определение потенциального АГС не важно, ведь цель - засунуть в ГБЛ. Без разницы, какое прогнозное значение будет при этом у сайта, главное, чтобы оно удовлетворяло условиям его выкидывания из вайт-листа.
Ну ведь это ты завел про "у кого математичнее", при чем тут шахматы? Я показал свой тематичный и математичный, а ты нет. Вот и померялись. :D
За поздравление спасибо, я надеюсь, что на следующем РОМИПе вы выкатите свой кластеризатор и вместе с Руками порвете классическую науку. ;)
Тут совсем кстати сегодня пришли предварительные оценки РОМИП по поиску. Поиск был по двум коллекциям документов (km.ru и белорусский веб), мы участвовали впервые, кроме нас было достаточно серьезных участников - Яндекс, коллектив из Академии Наук, коллектив из МГУ и другие. Не смотря на то, что мы пока просто тестили свои частотные базы, которые планируем использовать, как альтернативу IDF, и не ставили задачи победить, мы заняли уверенные вторые места по обеим поискам. Лучше нашего алгоритмы только у одного участника, скорее всего у Яндекса, но пока это не известно.
Так что вопрос о том, у кого реально большой и математичный, а у кого маленький, но хорошо распЕАренный, думаю снят надолго. :D
Поздравляю с ДР! :)
Спасибо за объективную оценку, я с ней согласен - математики ваще честные пацаны. Так уж вышло. А вот ловкие ребята-маркетологи постоянно окучивают свою паству разными смешными сказками. Но что поделать, работа у них такая, да и бабла хоца побольше. :D
Ну я тогда тоже еще раз повторю - определять именно АГС/неАГС не было никакого смысла. Но все сайты под АГС из тестовой выборки в наши фильтры попали, как сайты с большим % вылета страниц. Все, т.е. 100%, хотя выборка была не малой. По сайтам, с которых выпадает много, но они не под АГС, попало не 100% конечно, но погрешность вполне допустимая. :)
Эффективность определяется процентом верно отфильтрованных сайтов на тестовой выборке. Мы особо сложных метрик не мутили, ни к чему они. :)
Было очень мелодично. А теперь - рында! :D
У нас нет цели точно определить будущий АГС, зачем? Цель - определить сайты, на которых с большой вероятностью будет большой % выпадания страниц. И да - сайты, которые получат в будущем АГС туда уверенно залетают. :)
Что касается включения в обучающую выборку того, что ты предложил, то придется провести маленький ликбез. Все математики, которые хоть немного в теме машинного обучения, в отличие от вас, интернет-маркетологов, понимают, что обучающая и проверочная (тестовая) выборки должны удовлетворять определенным требованиям, т.к. на чем обучишь (проверишь), то и получишь. И от качества этих выборок во многом зависит и качество построенной модели. Поэтому построение этих выборок - сложный процесс, и учитывается большое количество параметров, в том числе и на длительном историческом периоде. Таких данных у нас много, было из чего выбирать. Единственное, чего не хватало, это инфы по АГС, для ее сбора потребовалось 2 месяца.
Интернет-маркетологи типа тебя видимо думают, что в модель можно совать все, что угодно, по минимальному количеству признаков. И будет зашибись. Дык не будет, все не так просто, как кажется неспециалистам. :)
Формула никак не настроится, потому что никто не будет включать в обучающую выборку УГ, предложенное маркетологами. :D
Ну вот когда математики в РБС (если они есть) построят тебе модель, тогда и будешь совать в нее всякую фигню и тащиться.:)
Потенциальный клиент АГС'а четко попадает у нас в выборку сайтов с наибольшей вероятностью выпадания страниц из индекса. Попадет ли он при этом под АГС и когда именно - нам не интересно, мы ссылками не барыжим. :)
Что будет с конкретной НС, если ее немеряно накачивать обучаловом? Кто ж его знает, в теории может и переклинить. :)
Только к чему это? Эффективность на тестовом множестве была хорошая, но, как и во всех случаях с обучаловом, истину покажут только полевые испытания. Через несколько месяцев можно будет делать выводы. Пока все красиво.
Московские и околомосковские пацаны обычно используют бубен. Его хватает. Тульским уже приходится использовать гонг, тульского бубна на Самокатной не слышно. А что делать камчатским? В вувузелы дудеть?:D
Из имеющегося коллектива нужно выжимать максимум. :)
Что касается выбора для обучения именно НС, то я предлагал несколько других методик, которые неплохо себя зарекомендовали в различных исследованиях. Но пацаны так бодро били себя пяткой в руки, что пришлось согласиться, и, как оказалось, не зря. :)
С уже наложенным все понятно. А как быть с тем, который наложится завтра? :)
Ну и в ГБЛ попадают не только будущие жертвы АГС, есть не мало сайтов с большим количеством страниц в индексе, на которых эти свежеиндексированные страницы регулярно добавляются в сапу, на них покупаются ссылки, после чего страницы с той же регулярностью из индекса вылетают. Простым набором параметров отследить такие сайты не всегда удается, а НС вроде справляется.
А, я кажется понял, откуда возникла аналогия с винком. Дело в том, что в статье некоторые из этих пунктов подробно не расписаны, там просто приведены частные примеры по каждому. Если бы проверялось только это, то да, что-то типа винка было бы, ну и плюс простановки. На самом же деле вычислялись сложные технические характеристики и всякие другие параметры, применялись всякие хитрые метрики. Палить их в паблик просто нет пока желания. :)