На графиках приводится ответ:
*) доля возрастает
*) на март на 22% продажных "старых" сайтов и на 18% "новых" продажных сайтов
используется <noindex>
Не вошло в статью, но раз уж вопрос всплыл: наличие ссылок в Javascript не является
критерием - они есть у очень большого количества сайтов (и это счетчики)
Про "здесь" не понял.
Исследование текстов ссылок и их точек назначения (сайтов на которые ссылаются) запланировано. Думаю, на следующей неделе выйдет (там в очереди еще одна статья, про другое, перед этим)
Оно, конечно, приличное, но оно довольно ожидаемое. 5% от моей выборки - это 30 тыс сайтов.
Если смотреть на системы линкоторговли, то там везде по несколько тысяч участников (которые не пересекаются), плюс есть прямые продажи
Просто когда варишься около SEO, возникает впечатление что ссылками торгуют ВСЕ!
Там же есть два графика про <noindex>, один про старые сайты
(в разделе http://www.rukv.ru/analytics-200703-runet-links.html#5b)
второй - про новые
(в разделе сайты http://www.rukv.ru/analytics-200703-runet-links.html#6)
Это все - по сайтам, отобранным по подозрениям в продажности т.е.
по первым двум критериям: 6-50 ссылок, разнообразие >=0.7
Вот прямые ссылки на картинки:
http://www.rukv.ru/runetlinks/image009.gif
http://www.rukv.ru/runetlinks/image012.gif
существенная часть "семантического ядра" рубрики делаеися экспертами, а не автоматом
А в чем проблема то ? Давайте возьмем автомат с самообучением. Значит есть
обучающая выборка (отобранные вручную сайты из каталога), есть тексты их страниц.
Построим ключевые словосочетания (которые частотны относительно общего интернета), дадим им веса (по степени отклонения частоты в данной рубрике от средней). Запихнем все в матрицу весов словосочетаний, по одному направлению рубрики, по другому - словосочетания, в клетках - веса. В качестве словосочетаний будем брать, например, отдельные слова и пары слов (захотим - удлиним)
На этапе работы - выделим из сайта все словосочетания, которые есть в базе, умножим на матрицу весов словосочетаний, получим вектор весов рубрик.
Если по большой и хорошей выборке учили, то автомат и запихает в те рубрики, у которых веса больше.
Да, я не утверждаю, что алгоритмы с обучающей выборкой - хорошие. У нас - другой подход :)
Правильно, самая большая трудность - это создание рубрикатора, который
описывает все сайты вообще.
Но эту задачу уже решили, когда делали Яндекс.Каталог. И другие каталоги ее как-то решают.
Правда в Директе и в ЯК разные деревья рубрик, но и это человечество тоже умеет обрабатывать мэппингом.
А кто сказал, что сайт должен быть в одной рубрике каталога ?
Потом, 40-30-20 - это очень хорошее распределение, у сайта будут три темы.
Гораздо большие проблемы создают СМИ - они "про все" - и их нужно пихать в рубрику СМИ. Но если у СМИ будет 40-30-20 Политика-Экономика-Спорт, то надо и пихнуть в эти рубрики. Но будет 5-5-5-5-5-5 - и ровно таким нужна ручная модерация.
Потом, если перечитать то что я писал, то я не предлагаю результат показывать публике. Я предлагаю его учитывать при взвешивании ссылок.
А почему сложно ? Считаем средние частоты тематик (постраничные). Если что-то
вылезло - это и есть тематика сайта. И только если не вылезло, потребуется
вмешательство модератора.
Повторяю то, что написал несколько выше: "если бы я рулил Яндексом", я бы конечно использовал автоматический определятор тематик при анализе ссылочного ранжирования.
А происходит оно сейчас или нет - мне неведомо.
Полностью согласен - slashdot effect сейчас очень сильно работает.
В каком смысле "не под силу" ? Контекстная реклама на страницы ставится вполне точно. Я бы сказал, что точность определения тематики - процентов 70-95 (вот такие вот широкие ворота), это при том, что нужно определять тематику двух текстов: объявления и страницы на котором оно размещается. Чтобы получить 81% произведения, нужно по каждому из текстов (объявления и страницы) сработать на уровне 0.9. Точность 0.8 дает и Автоконтекст (на русских текстах) и AdSense (на английских). Директ не меряли пока.
У нас на Новотеке полнота определения тематики новостей около 0.9, а точность до такой степени высокая, что не стыдно людям показывать новости в классификаторе. Т.е. я грубых ошибок просто не вижу, а мелочи - они и есть мелочи.
К задаче определения темы примыкает вторая - из страницы нужно выделить содержание (убрать анонсы других материалов и так далее). Задача тоже кажется вполне решаемой, прототип у нас работает :)
Задачи вроде автореферирования одного текста или дайджеста группы текстов - тоже решенные с вполне приличным качеством.
Да, я нигде не говорю, что компьютер "научился понимать смысл". Т.е. по статье про Apple IPhone он не сможет заключить рулит игрушка или сосет. Но вот рубрику "Электроника - Мобильные Телефоны" присвоить - несложная задача.
Есть две разных задачи, их не надо путать
* видимая пользователем (пусть даже через тулбар) классификация
* классификация для внутренних целей (тематичность ссылок)
Во второй задаче интересна полнота, а ошибки для 1% сайтов не имеют большого значения.
А в первой задаче интересна точность.