Пересчет ТИЦ и Яндекс.Каталог

ref
На сайте с 21.11.2004
Offline
91
ref
#51

alextutubalin, возьмем простой пример - сайт, посвященный каминам. Узкоспециализированный, вроде должно быть просто... Что здесь должно вылезти? Куда автомат его ткнет?

-в строительство

-в климатическое оборудование

-в предметы интерьера, мебель

а если электрические камины можно еще и в бытовую технику?

Если посмотреть реальные сайты, даже модераторы их по разным разделам пихают (видимо по своим вкусам, да по описанию :) ).

А вот с точки зрения контексной рекламы здесь все просто (по ключевым словам, хотя бы).

с уважением, Леонид
A
На сайте с 07.01.2007
Offline
7
#52
Dybra:
Сложность (как это не пародоксально) в определении самого термина "Тематика". Вопрос каждый месяц поднимается на форуме, но воз и ныне там. Дайте определение этого термина и поймете всю сложность.

Правильно, самая большая трудность - это создание рубрикатора, который

описывает все сайты вообще.

Но эту задачу уже решили, когда делали Яндекс.Каталог. И другие каталоги ее как-то решают.

Правда в Директе и в ЯК разные деревья рубрик, но и это человечество тоже умеет обрабатывать мэппингом.

Dybra:

Плюс большую ложку дёгтя тут вносят разносторонние сайты, где тематика уже может делиться в каком-то отношении: допустим сайт 40% "авто", 30% "путешествия", 20% "техника" а остальное вообще не поймешь о чем, даже человеку сложно понять о чем это. Куда девать и относить такие сайты?

А кто сказал, что сайт должен быть в одной рубрике каталога ?

Потом, 40-30-20 - это очень хорошее распределение, у сайта будут три темы.

Гораздо большие проблемы создают СМИ - они "про все" - и их нужно пихать в рубрику СМИ. Но если у СМИ будет 40-30-20 Политика-Экономика-Спорт, то надо и пихнуть в эти рубрики. Но будет 5-5-5-5-5-5 - и ровно таким нужна ручная модерация.

Потом, если перечитать то что я писал, то я не предлагаю результат показывать публике. Я предлагаю его учитывать при взвешивании ссылок.

http://blog.lexa.ru (http://blog.lexa.ru)
A
На сайте с 07.01.2007
Offline
7
#53
ref:
alextutubalin, возьмем простой пример - сайт, посвященный каминам. Узкоспециализированный, вроде должно быть просто... Что здесь должно вылезти? Куда автомат его ткнет?
-в строительство
-в климатическое оборудование
-в предметы интерьера, мебель
а если электрические камины можно еще и в бытовую технику?

А в чем проблема то ? Давайте возьмем автомат с самообучением. Значит есть

обучающая выборка (отобранные вручную сайты из каталога), есть тексты их страниц.

Построим ключевые словосочетания (которые частотны относительно общего интернета), дадим им веса (по степени отклонения частоты в данной рубрике от средней). Запихнем все в матрицу весов словосочетаний, по одному направлению рубрики, по другому - словосочетания, в клетках - веса. В качестве словосочетаний будем брать, например, отдельные слова и пары слов (захотим - удлиним)

На этапе работы - выделим из сайта все словосочетания, которые есть в базе, умножим на матрицу весов словосочетаний, получим вектор весов рубрик.

Если по большой и хорошей выборке учили, то автомат и запихает в те рубрики, у которых веса больше.

Да, я не утверждаю, что алгоритмы с обучающей выборкой - хорошие. У нас - другой подход :)

Sonja
На сайте с 05.06.2003
Offline
170
#54
alextutubalin:
Да, я не утверждаю, что алгоритмы с обучающей выборкой - хорошие. У нас - другой подход

Какой? Или это коммерческая тайна?

С уважением, Ольга Лебедева
A
На сайте с 07.01.2007
Offline
7
#55
Sonja:
Какой? Или это коммерческая тайна?

существенная часть "семантического ядра" рубрики делаеися экспертами, а не автоматом

ketly
На сайте с 20.04.2005
Offline
151
#56
victim:
А ну да. Точно. Директ ставил! А это как нибудь положительно скажется на решении о добавлении сайта в каталог?

Если модераторам Яндекса Ваш ресурс понравится, то скажется :)

Улыбнуло! ッ (https://vk.com/smileegg)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий