В Москве есть премия menu.ru, почти всегда ей можно доверять. Мишленовских звезд в РФ не дают, но мишленовские повара есть у Деллоса например. Даже модная сейчас в мишленовских молекулярная кухня есть Москве у Комма в "Варварах", тоже стоит посетить. :)
Зарабатывать на форексе можно. Но это один из самых сложных путей заработка, в отличие от сео. :)
Коллеги, а почему все рассказывают о длине документов в символах? Тут же не раздел копирайтинга. Все поисковые машины измеряют длину документа в словах. :)
Да, это как вариант, конечно. Скорее всего все не так. Но логики пока не прослеживается, приходится извращать мысль. :D
Забавно, что фильтром зацепило не только спамные простыни, есть примеры не спамных сайтов, просто с большим объемом нормального текста, который не оптимизировался никогда.
Что-то упало, да. Например - в основном то, что разметили вручную. :)
Да, я вчера еще об этом нацарапал. :)
Либо этих метрик тупо нет. Рандомно выбрали запрос-документы, разметили асессорами и засунули в обучалово. А оно не обучилось. :D
G00DMAN добавил 23.01.2010 в 13:52
А зачем отдельного? Не факт. АГС обучался выкидывать из индекса, а этот фильтр просто понижает релевантность спамерам, т.е. вписывается в функцию ранжирования. И процедура обучения вписывается. Только пока не выходит у Данилы каменный цветок, с первого раза фильтр плохо обучился. Посмотрим, что дальше будет...
Вы просто проспамили внешими молодой сайт и получили фильтр, при чем тут тексты? :)
Как это не просел? Каширин получил свою черную метку по "раскрутка сайта".
Я все же надеюсь, что не имеет место быть. :)
То, что вышел внутряк вместо морды - нормально, морду понизили за спам, а релевантность у внутряка была достаточная для топа.
Все можеть быть... :)
Другие факторы могут быть размазаны и четких закономерностей не будет, как вариант.
Садовский говорил о топ-30.
Вылетевшие не сильно отличались от bdbd по этим показателям.
G00DMAN добавил 23.01.2010 в 04:17
В MatrixNet загружается обучающая выборка вида запрос-документ-релевантность. Ориентация этой выборки на какие-то топы не особо нужна.
Может метод фильтрации и простой, только нужно догадаться. Мне пока не поперло с этим. :)
Есть еще пессимистическая гипотеза, в которую я верить не хочу, потому что тогда кранты.
Гипотеза такая - фильтр на спам-текст воткнули в MatrixNet (об этом я уже писал, что такого не может быть). Ну так вот, если все же оно есть, то что могло произойти. В основе лежала совершенно банальная идея - если налить в обучающую выборку много пар (запрос, документ), размеченных как спамные, то алгоритм сам обучится и будет щелкать спам-тексты как орехи. Т.к. возможности асессоров не резиновые, а время всегда критично, то им наковыряли большую рандомную выборку документов из коммерческих топ-30, по немного из многих топов. Эти документы были жестоко размечены, понятно, что большинство как спамные, но выбраны они были случайно и идея с супер-самообучением не сработала. Т.е. размеченые-то вылетели, а остальные - скорее нет, чем да. И закономерностей не будет в таком случае.
Примерно такое же везде по двухсловным ВК-запросам. Прикол в том, что вылетевшие не особо отличаются от средних по топу. И по простым метрикам явно не самые спамные.