alextutubalin

Рейтинг
7
Регистрация
07.01.2007
pro-maker:

Я спрашивал сколько внешних ссылок закрыто в noindex на "продажных" мордах (6-50 ссылок, разнообразие >=0.7)?

На графиках приводится ответ:

*) доля возрастает

*) на март на 22% продажных "старых" сайтов и на 18% "новых" продажных сайтов

используется <noindex>

Не вошло в статью, но раз уж вопрос всплыл: наличие ссылок в Javascript не является

критерием - они есть у очень большого количества сайтов (и это счетчики)

pro-maker:

Можно ли происследовать также и форматы текстовых анкоров на "непродажных" мордах? Т.е. структуру используемых в ссылках текстов (ключевики, "здесь", урлы).

Про "здесь" не понял.

Исследование текстов ссылок и их точек назначения (сайтов на которые ссылаются) запланировано. Думаю, на следующей неделе выйдет (там в очереди еще одна статья, про другое, перед этим)

wolf:
5% - это небольшое количество??? На мой взгляд, так вполне приличное.

Оно, конечно, приличное, но оно довольно ожидаемое. 5% от моей выборки - это 30 тыс сайтов.

Если смотреть на системы линкоторговли, то там везде по несколько тысяч участников (которые не пересекаются), плюс есть прямые продажи

Просто когда варишься около SEO, возникает впечатление что ссылками торгуют ВСЕ!

pro-maker:
Алексей, спасибо за интересное исследование.

Интересны сформулированные критерии "продажности" морд:
  • Количество исходящих текстовых ссылок от 6 до 50.
  • Коэффициент разнообразия более 0.7
  • Использование тега noindex.


Хотелось получить более подробную информацию по количеству вхождений тега noindex на сайтах, соответствующих первым двум критериям. :)

Там же есть два графика про <noindex>, один про старые сайты

(в разделе http://www.rukv.ru/analytics-200703-runet-links.html#5b)

второй - про новые

(в разделе сайты http://www.rukv.ru/analytics-200703-runet-links.html#6)

Это все - по сайтам, отобранным по подозрениям в продажности т.е.

по первым двум критериям: 6-50 ссылок, разнообразие >=0.7

Вот прямые ссылки на картинки:

http://www.rukv.ru/runetlinks/image009.gif

http://www.rukv.ru/runetlinks/image012.gif

Sonja:
Какой? Или это коммерческая тайна?

существенная часть "семантического ядра" рубрики делаеися экспертами, а не автоматом

ref:
alextutubalin, возьмем простой пример - сайт, посвященный каминам. Узкоспециализированный, вроде должно быть просто... Что здесь должно вылезти? Куда автомат его ткнет?
-в строительство
-в климатическое оборудование
-в предметы интерьера, мебель
а если электрические камины можно еще и в бытовую технику?

А в чем проблема то ? Давайте возьмем автомат с самообучением. Значит есть

обучающая выборка (отобранные вручную сайты из каталога), есть тексты их страниц.

Построим ключевые словосочетания (которые частотны относительно общего интернета), дадим им веса (по степени отклонения частоты в данной рубрике от средней). Запихнем все в матрицу весов словосочетаний, по одному направлению рубрики, по другому - словосочетания, в клетках - веса. В качестве словосочетаний будем брать, например, отдельные слова и пары слов (захотим - удлиним)

На этапе работы - выделим из сайта все словосочетания, которые есть в базе, умножим на матрицу весов словосочетаний, получим вектор весов рубрик.

Если по большой и хорошей выборке учили, то автомат и запихает в те рубрики, у которых веса больше.

Да, я не утверждаю, что алгоритмы с обучающей выборкой - хорошие. У нас - другой подход :)

Dybra:
Сложность (как это не пародоксально) в определении самого термина "Тематика". Вопрос каждый месяц поднимается на форуме, но воз и ныне там. Дайте определение этого термина и поймете всю сложность.

Правильно, самая большая трудность - это создание рубрикатора, который

описывает все сайты вообще.

Но эту задачу уже решили, когда делали Яндекс.Каталог. И другие каталоги ее как-то решают.

Правда в Директе и в ЯК разные деревья рубрик, но и это человечество тоже умеет обрабатывать мэппингом.

Dybra:

Плюс большую ложку дёгтя тут вносят разносторонние сайты, где тематика уже может делиться в каком-то отношении: допустим сайт 40% "авто", 30% "путешествия", 20% "техника" а остальное вообще не поймешь о чем, даже человеку сложно понять о чем это. Куда девать и относить такие сайты?

А кто сказал, что сайт должен быть в одной рубрике каталога ?

Потом, 40-30-20 - это очень хорошее распределение, у сайта будут три темы.

Гораздо большие проблемы создают СМИ - они "про все" - и их нужно пихать в рубрику СМИ. Но если у СМИ будет 40-30-20 Политика-Экономика-Спорт, то надо и пихнуть в эти рубрики. Но будет 5-5-5-5-5-5 - и ровно таким нужна ручная модерация.

Потом, если перечитать то что я писал, то я не предлагаю результат показывать публике. Я предлагаю его учитывать при взвешивании ссылок.

Dybra:
Наверное сразу стоит разделить понятия "тематика сайта" и "тематика страницы". Для страницы автоматом определяется более-менее сносно (почти вся реклама), а вот для сайта это сделать автоматом очень сложно, поэтому только модератор (ЯК как пример)

А почему сложно ? Считаем средние частоты тематик (постраничные). Если что-то

вылезло - это и есть тематика сайта. И только если не вылезло, потребуется

вмешательство модератора.

saidnavy:
Вы безбожно путаете Я.Директи Я.Каталог это два сервиса не взаимосвязанных, так же как описк и ЯК не связаны. Это разные звенья одной цепи.

Повторяю то, что написал несколько выше: "если бы я рулил Яндексом", я бы конечно использовал автоматический определятор тематик при анализе ссылочного ранжирования.

А происходит оно сейчас или нет - мне неведомо.

HoSStiA:
В современных условиях эта задача не может быть решена в принципе. Интернет стал глобальной социальной средой, и траффикообразующие ссылки, по которым люди без принуждения переходят на другие сайты, выставляются на ресурсах с размытой (универсальной) тематикой.

Полностью согласен - slashdot effect сейчас очень сильно работает.

HoSStiA:

Но от этого они не становятся менее тематичными, менее качественными. Учесть последнее поисковым системам нынешнего поколения не под силу, т.к. большинство таких ссылок не имет "человекоподобного" анкора. Анализировать текст всей страницы, как это делал бы человек, поисковикам пока не под силу.

В каком смысле "не под силу" ? Контекстная реклама на страницы ставится вполне точно. Я бы сказал, что точность определения тематики - процентов 70-95 (вот такие вот широкие ворота), это при том, что нужно определять тематику двух текстов: объявления и страницы на котором оно размещается. Чтобы получить 81% произведения, нужно по каждому из текстов (объявления и страницы) сработать на уровне 0.9. Точность 0.8 дает и Автоконтекст (на русских текстах) и AdSense (на английских). Директ не меряли пока.

У нас на Новотеке полнота определения тематики новостей около 0.9, а точность до такой степени высокая, что не стыдно людям показывать новости в классификаторе. Т.е. я грубых ошибок просто не вижу, а мелочи - они и есть мелочи.

К задаче определения темы примыкает вторая - из страницы нужно выделить содержание (убрать анонсы других материалов и так далее). Задача тоже кажется вполне решаемой, прототип у нас работает :)

Задачи вроде автореферирования одного текста или дайджеста группы текстов - тоже решенные с вполне приличным качеством.

Да, я нигде не говорю, что компьютер "научился понимать смысл". Т.е. по статье про Apple IPhone он не сможет заключить рулит игрушка или сосет. Но вот рубрику "Электроника - Мобильные Телефоны" присвоить - несложная задача.

ref:
Seventh Son, Видимо проблемы все-таки остаются, несмотря на то, что с тех пор прошло больше 3-х лет. Иначе как объяснить, что при приеме сайта в ЯК тиц частенько меняется радикальным образом, причем в обе стороны? Да и скрытая часть каталога должна бы за это время стать весьма мощной, если работает автомат. Цифр нет, но, навскидку, даже для сайтов в топе по своим тематикам большинство - без указания раздела.

Есть две разных задачи, их не надо путать

* видимая пользователем (пусть даже через тулбар) классификация

* классификация для внутренних целей (тематичность ссылок)

Во второй задаче интересна полнота, а ошибки для 1% сайтов не имеют большого значения.

А в первой задаче интересна точность.

Всего: 42