G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
wolf:
Не, ну я с Сегаловичем коньяки не пью, тут мне твою "математичность" крыть нечем.

При чем тут Сегалович? Гнилая отмазка, тебе и без Сегаловичей крыть нечем. :)

wolf:
Короче, мели Емеля, твоя неделя, ну, а я опять умываю руки.

Дык, мелите вы с Миражом в своей ветке. Иногда забавно читать. Но заметь - я вам там не мешаю стричь паству, я же понимаю, что нужно семьи кормить и т.д. :D

wolf:
Всё равно, мало кто понимает, о чем речь, а на все неудобные вопросы ты свою лохматую линейку достаёшь.

Ты хочешь, чтобы я тебе технологии по полочкам разложил нахаляву? Наивняк, не дождешься. Я и так много чего даю, остальное придется своими силами.

wolf:
В общем, удачи в пареве "спонсеров". Ну как еще бесхозных кандидатов в доктора прокормишь. Не альтернативным IDF'ом же.

Каких "спонсеров"? В вашем СЕО интересных денег нет в целом, так что и "спонсеров" быть не может. Я на сегодня не вижу в отрасли кандидатов на мерялку по собственному баблу. :D

wolf:
P.S. И да. Мы, если чо, формулы в аналитическом виде восстанавливаем. В отличие от. Будет какая аналитическая формула в активе, хоть по какому-нибудь самому заштатному фактору - заходи, померяемся.

Ну я еще со времен ввода матрикснета говорил, что найти метрики, не плохо коррелирующие с выдачей теоретически возможно. И рекомендовал это делать. Восстановить же формулу нельзя, потому что нет ее там. :D

lexxx, спасибо, но у нас и не было такой цели вообще. Мы надеялись на серединку, чтобы не в конец списка попасть. Цель была не померяться ранжированием, а протестировать наши частотные базы ICLF и %ICLF, в сравнении с классикой на IDF. Тестирование закончилось отлично, IDF не катит, классическая поисковая наука попячилась. :D

Что касается бодалова с матрикснетом Яндекса, который пока всех переигрывает, то задача конкретно не простая, но мы будем пытаться. Может и получится забодать. :)

wolf:
Поясни, плиз, что такое "верно отфильтрованные"?

В данном случае это означало, что прогнозное значение попало в нужный диапазон. Подробнее инфы не будет.

wolf:
Ясен пень, попали. Потому что, хоть вам и "определять именно АГС/неАГС не было никакого смысла", вы сделали именно это. Но т.к. это не имеет смысла, вы пытаетесь убедить, что сделали что-то другое :)

Не, ты наверное не понял. Сайты, отловненные по АГС, попали в выборку с характеристиками до момента убийства, а не после. Плюс длинная история параметров. Потому и было потрачено некоторое время на отлов, чтобы получить в том числе и ситуацию в момент наложения, когда уже, но ссылки еще не успели снять. И точное определение потенциального АГС не важно, ведь цель - засунуть в ГБЛ. Без разницы, какое прогнозное значение будет при этом у сайта, главное, чтобы оно удовлетворяло условиям его выкидывания из вайт-листа.

wolf:
Поздравляю с хорошими достижениями в карманном поиске, только вот здесь вы не поиском занимаетесь, а реверс-инжинирингом. А это немножко разные вещи. И понты напоминают мастера спорта по боксу, севшего играть в шахматы. Ну, и там и там спорт ведь, фигли, какая разница?... :)

Ну ведь это ты завел про "у кого математичнее", при чем тут шахматы? Я показал свой тематичный и математичный, а ты нет. Вот и померялись. :D

За поздравление спасибо, я надеюсь, что на следующем РОМИПе вы выкатите свой кластеризатор и вместе с Руками порвете классическую науку. ;)

wolf:
Не. У кого математичнее :)

Тут совсем кстати сегодня пришли предварительные оценки РОМИП по поиску. Поиск был по двум коллекциям документов (km.ru и белорусский веб), мы участвовали впервые, кроме нас было достаточно серьезных участников - Яндекс, коллектив из Академии Наук, коллектив из МГУ и другие. Не смотря на то, что мы пока просто тестили свои частотные базы, которые планируем использовать, как альтернативу IDF, и не ставили задачи победить, мы заняли уверенные вторые места по обеим поискам. Лучше нашего алгоритмы только у одного участника, скорее всего у Яндекса, но пока это не известно.

Так что вопрос о том, у кого реально большой и математичный, а у кого маленький, но хорошо распЕАренный, думаю снят надолго. :D

Поздравляю с ДР! :)

wolf:
Скажу одно. Математики никогда не выдадут ошибку за прогноз. Это делают только ловкие ребята, старающиеся кому-то запудрить мозг. А называть они себя могут хоть горшками :)

Спасибо за объективную оценку, я с ней согласен - математики ваще честные пацаны. Так уж вышло. А вот ловкие ребята-маркетологи постоянно окучивают свою паству разными смешными сказками. Но что поделать, работа у них такая, да и бабла хоца побольше. :D

wolf:
Еще раз повторяю для полной ясности - ошибочно определенные методом сайты под АГС/не под АГС, это именно ошибка метода

Ну я тогда тоже еще раз повторю - определять именно АГС/неАГС не было никакого смысла. Но все сайты под АГС из тестовой выборки в наши фильтры попали, как сайты с большим % вылета страниц. Все, т.е. 100%, хотя выборка была не малой. По сайтам, с которых выпадает много, но они не под АГС, попало не 100% конечно, но погрешность вполне допустимая. :)

wolf:
P.S. И да. Как эффективность-то считаете? Не услышал пока ответа кроме "сам дурак" :)

Эффективность определяется процентом верно отфильтрованных сайтов на тестовой выборке. Мы особо сложных метрик не мутили, ни к чему они. :)

wolf:
А теперь гонг.

Было очень мелодично. А теперь - рында! :D

wolf:
Постой. То есть вы как бы оцениваете сайты, на которых еще нет АГС? Типа по своим пицот параметрам они согласно алгоритму должны попадать под АГС, но вот нету его пока них? А теперь гонг. Если мы все эти сайты, на которых нет АГС, но для которых текущая формула говорит, что он должен быть, возьмем да и включим в обучающую выборку как сайты без АГС. Что нам скажет построенная по этой выборке новая формула? ;)

У нас нет цели точно определить будущий АГС, зачем? Цель - определить сайты, на которых с большой вероятностью будет большой % выпадания страниц. И да - сайты, которые получат в будущем АГС туда уверенно залетают. :)

Что касается включения в обучающую выборку того, что ты предложил, то придется провести маленький ликбез. Все математики, которые хоть немного в теме машинного обучения, в отличие от вас, интернет-маркетологов, понимают, что обучающая и проверочная (тестовая) выборки должны удовлетворять определенным требованиям, т.к. на чем обучишь (проверишь), то и получишь. И от качества этих выборок во многом зависит и качество построенной модели. Поэтому построение этих выборок - сложный процесс, и учитывается большое количество параметров, в том числе и на длительном историческом периоде. Таких данных у нас много, было из чего выбирать. Единственное, чего не хватало, это инфы по АГС, для ее сбора потребовалось 2 месяца.

Интернет-маркетологи типа тебя видимо думают, что в модель можно совать все, что угодно, по минимальному количеству признаков. И будет зашибись. Дык не будет, все не так просто, как кажется неспециалистам. :)

wolf:
Да нет. Формула настроится так, что подозрительные при предыдущей формуле сайты станут белыми и пушистыми. То есть пицот параметров у них будут уже такие, как надо.

Формула никак не настроится, потому что никто не будет включать в обучающую выборку УГ, предложенное маркетологами. :D

wolf:
Ок. Давай эти подозрительные сайты, у когорых АГС'а нет, а формула за ихние пицот параметров говорит, что должен быть, включим не в обучающую выборку, а в тестовое множество. Что станет с эффективностью и прочей красотой писаной? ;) Ведь надеюсь, эффективность считается как надо, то есть под ней понимается процент верно определенных сайтов под АГС'ом (или наоборот, не под АГС'ом - но всё-таки верно определенных) из тестового множества. Или же у вас эффективность - это что-то другое?

Ну вот когда математики в РБС (если они есть) построят тебе модель, тогда и будешь совать в нее всякую фигню и тащиться.:)

wolf:
Ребята ошибку метода выдают за прогноз. Может, их нейронная сеть и умеет с какой-то вероятностью определять по пицот параметрам под АГС'ом ли сейчас пациент или нет. Но вот предсказать, что какой-то пациент скоро попадет под АГС - это дудки. Ибо неправильное определение АГС - это по методу будет ошибкой. А они подменяют понятия: типа неправильно определенный - это потенциальный клиент АГС'а ;)

Потенциальный клиент АГС'а четко попадает у нас в выборку сайтов с наибольшей вероятностью выпадания страниц из индекса. Попадет ли он при этом под АГС и когда именно - нам не интересно, мы ссылками не барыжим. :)

wolf:
Постой. То есть вы как бы оцениваете сайты, на которых еще нет АГС? Типа по своим пицот параметрам они согласно алгоритму должны попадать под АГС, но вот нету его пока них? А теперь гонг. Если мы все эти сайты, на которых нет АГС, но для которых текущая формула говорит, что он должен быть, возьмем да и включим в обучающую выборку как сайты без АГС. Что нам скажет построенная по этой выборке новая формула? ;)

Что будет с конкретной НС, если ее немеряно накачивать обучаловом? Кто ж его знает, в теории может и переклинить. :)

Только к чему это? Эффективность на тестовом множестве была хорошая, но, как и во всех случаях с обучаловом, истину покажут только полевые испытания. Через несколько месяцев можно будет делать выводы. Пока все красиво.

wolf:
А теперь гонг.

Московские и околомосковские пацаны обычно используют бубен. Его хватает. Тульским уже приходится использовать гонг, тульского бубна на Самокатной не слышно. А что делать камчатским? В вувузелы дудеть?:D

wolf:
Понятно. Взяли бы спеца, скажем, по сплайнам, приближали бы всё сплайнами :)

Из имеющегося коллектива нужно выжимать максимум. :)

Что касается выбора для обучения именно НС, то я предлагал несколько других методик, которые неплохо себя зарекомендовали в различных исследованиях. Но пацаны так бодро били себя пяткой в руки, что пришлось согласиться, и, как оказалось, не зря. :)

wolf:
Что-то и я из пространного репортажа не совсем всё понял. Можно разъяснить некоторые моменты? Типа задались целью определять сайты под АГС? Взять обучающую выборку, составленную ручками - вот это сайты с АГС, вот это - без АГС, снять с них пицот параметров и заслать в алгоритм. Ну, он там что-то посчитает, по каким-то своим метрикам даст своим результатам оценку. Хинт: с метриками можно играться, чтоб нужную оценку получить. :) И типа сказать - мы теперь любой сайт можем взять и по этим пицот параметрам определить, под АГС ли он. Я всё правильно понял? Только вот какой смысл, когда уже наложенный АГС и без этого метода определить можно, без пицот параметров? :)

С уже наложенным все понятно. А как быть с тем, который наложится завтра? :)

Ну и в ГБЛ попадают не только будущие жертвы АГС, есть не мало сайтов с большим количеством страниц в индексе, на которых эти свежеиндексированные страницы регулярно добавляются в сапу, на них покупаются ссылки, после чего страницы с той же регулярностью из индекса вылетают. Простым набором параметров отследить такие сайты не всегда удается, а НС вроде справляется.

datot:

но вопрос про
Визуальная оценка донора;
Фильтрация по контенту;
Фильтрация по url;
Фильтрация по пузомеркам;
Фильтрация по исходящим/входящим ссылкам;
Фильтрация по техническим характеристикам;
Тестовые простановки
остался.

А, я кажется понял, откуда возникла аналогия с винком. Дело в том, что в статье некоторые из этих пунктов подробно не расписаны, там просто приведены частные примеры по каждому. Если бы проверялось только это, то да, что-то типа винка было бы, ну и плюс простановки. На самом же деле вычислялись сложные технические характеристики и всякие другие параметры, применялись всякие хитрые метрики. Палить их в паблик просто нет пока желания. :)

Всего: 1960