G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
codefather:
про Болгарию не знаю, но вот в Мск вкусно поесть - не ясно как искать
это на западе есть всякие премии, мишленовские звезды и т.д.

В Москве есть премия menu.ru, почти всегда ей можно доверять. Мишленовских звезд в РФ не дают, но мишленовские повара есть у Деллоса например. Даже модная сейчас в мишленовских молекулярная кухня есть Москве у Комма в "Варварах", тоже стоит посетить. :)

Зарабатывать на форексе можно. Но это один из самых сложных путей заработка, в отличие от сео. :)

Коллеги, а почему все рассказывают о длине документов в символах? Тут же не раздел копирайтинга. Все поисковые машины измеряют длину документа в словах. :)

wolf:
Ну, про "в основном" - это всего лишь догадки ;)

Да, это как вариант, конечно. Скорее всего все не так. Но логики пока не прослеживается, приходится извращать мысль. :D

Забавно, что фильтром зацепило не только спамные простыни, есть примеры не спамных сайтов, просто с большим объемом нормального текста, который не оптимизировался никогда.

wolf:
Почему не обучилось? Что-то же упало, значит, как-то да обучилось. ;)
Обучалово ведь - это своеобразный численный метод в пику аналитическому. То есть, если запарились искать хорошую аналитическую модель антиспама, то прибегли к численной.

Что-то упало, да. Например - в основном то, что разметили вручную. :)

wolf:
Значит, у яндексоидов метрики непростые ;)

Да, я вчера еще об этом нацарапал. :)

Либо этих метрик тупо нет. Рандомно выбрали запрос-документы, разметили асессорами и засунули в обучалово. А оно не обучилось. :D

G00DMAN добавил 23.01.2010 в 13:52

wolf:
Я так полагаю, имелется в виду наличие отдельного обучаемого спам-фильтра? Вполне возможно. АГС-то, по идее, тоже должен быть обучаемым. Почему бы не быть обучаемым антиспаму?

А зачем отдельного? Не факт. АГС обучался выкидывать из индекса, а этот фильтр просто понижает релевантность спамерам, т.е. вписывается в функцию ранжирования. И процедура обучения вписывается. Только пока не выходит у Данилы каменный цветок, с первого раза фильтр плохо обучился. Посмотрим, что дальше будет...

moormon:
Сайт молодой (5 мес). Только ест. ссылки.

... а ссылки только естественные и всего не более 900. Вот и рузельтат.
moormon:
За 5 месяцев набрали 900 естественных ссылок?

Яху роказывает с некоторых форумов по несколько десятков. На самом деле там сайтов 150-200 ссылаются. Где я на формах, где в блогах и т.д.

Вы просто проспамили внешими молодой сайт и получили фильтр, при чем тут тексты? :)

Psycho:
Впрочем, например, и Адванс не просел, а на нём, при всём уважении к Константину Каширину, текст на главной вообще не читабелен (если, конечно, не подкрутить чуть браузер, чтобы можно было различать там буквы).

Как это не просел? Каширин получил свою черную метку по "раскрутка сайта".

lcatlas:
Так что ваша теория имеет место быть. Хотя мне больше напоминает какой-то рандом. Потому что некоторые запросы он просто снял с морды и попытался раскидать по внутрякам, где-то раскидалось (где были страницы с вхождением тайтла или хоть какой-то плотностью), а где-то нет - запросы вышли за 1к+.

Я все же надеюсь, что не имеет место быть. :)

То, что вышел внутряк вместо морды - нормально, морду понизили за спам, а релевантность у внутряка была достаточная для топа.

CatRegist:
G00DMAN, закономерности есть ещё с начала Снежинска. Мои подопечные, где экспериментальным путем резки по живому, была доказана необходимость портянок, невзирая на средние значения по топу - чувствуют себя с новым "фильтром" великолепно в вполне себе конкурентных топах (среднячковые СК). Самое веселое, что многие конкуренты улетели в небытие с портянками, а мои живут и здравствуют (>30 вхождений у моих, а среднее по топу стало на уровне 5-12).

Все можеть быть... :)

CatRegist:
У меня к вам вопрос немного иного плана, ибо вышку прогуливал.. если всетаки допустить, что это подкрутка MatrixNet, то во что она выльется? Не может же просто часть формулы изменится без последствий.. (или может?) на место количества вхождений ключа в документ неизбежно усилены другие факторы, но какие?

Другие факторы могут быть размазаны и четких закономерностей не будет, как вариант.

lcatlas:
Дальше топ20 - сайты могут идти хаотически и не иметь ничего общего с релевантностью, по заявлению самого Садовского.

Садовский говорил о топ-30.

lcatlas:
Впринципе для меня это логично, потому что если взять тот же bdbd - их плотность из тайтла всего 2%, а уникальных вхождений чуть больше 5%. И это лишь пример того, почему их не выкинуло по этой выборке.

Вылетевшие не сильно отличались от bdbd по этим показателям.

G00DMAN добавил 23.01.2010 в 04:17

CatRegist:
А как можно загрузить что то в MatrixNet ? Если эталоны (если можно так выразится) для алгоритма стали другие, то неизбежно должны пересчитаться и остальные факторы ранжирования, ориентируясь на сайты находящиеся в топе в данный момент или нет?

В MatrixNet загружается обучающая выборка вида запрос-документ-релевантность. Ориентация этой выборки на какие-то топы не особо нужна.

gidronic:
Илья, ну Вы, как математик математикам, скажите страждущим, - что это может быть в принципе? :-)))) Неужели Русская рулетка? :-))))

Может метод фильтрации и простой, только нужно догадаться. Мне пока не поперло с этим. :)

Есть еще пессимистическая гипотеза, в которую я верить не хочу, потому что тогда кранты.

Гипотеза такая - фильтр на спам-текст воткнули в MatrixNet (об этом я уже писал, что такого не может быть). Ну так вот, если все же оно есть, то что могло произойти. В основе лежала совершенно банальная идея - если налить в обучающую выборку много пар (запрос, документ), размеченных как спамные, то алгоритм сам обучится и будет щелкать спам-тексты как орехи. Т.к. возможности асессоров не резиновые, а время всегда критично, то им наковыряли большую рандомную выборку документов из коммерческих топ-30, по немного из многих топов. Эти документы были жестоко размечены, понятно, что большинство как спамные, но выбраны они были случайно и идея с супер-самообучением не сработала. Т.е. размеченые-то вылетели, а остальные - скорее нет, чем да. И закономерностей не будет в таком случае.

Примерно такое же везде по двухсловным ВК-запросам. Прикол в том, что вылетевшие не особо отличаются от средних по топу. И по простым метрикам явно не самые спамные.

Всего: 1960