"Ноябрьские тезисы" (с)

MokuZ
На сайте с 12.03.2006
Offline
158
#81
Ceres:
Как они могут использовать всю эту информацию в ранжировании сайтов?

если поверим в то, что тематичность определяется автоматом.

тогда как это можно учитывать в ссылочном ранжировании (все нижеописанное - только мое предположение, а как сказал Людкевич - "никому не верьте"):

есть множество тематик {Ti}, есть матрица метрик между ними {Mi,j} (расстояний между тематиками).

имеем ссылку с документа A1 на A2. Они имеют соответственно тематики T1 и T2. Тогда можно разделить ссылочное в классическом понимании на расстояние M1,2.

хм. а вот если в таблице расстояний учитывать не только семантическую близость документов, а еще и поведенческую (как в докладе бегуна на конфе упоминалось, что человек, интересующийся автомобилями легко может перейти по ссылке "ноутбуки"), то тут уже совсем все круто получается.

Александр Тер-Арутюнов
На сайте с 12.04.2004
Offline
72
#82

да, подслушивал только Deni - остальные терки терли 😂 ...

не очень понятно, почему кажется многим проблематично определить тематику, основываясь например на анонсированном не так давно трастранке - доверенные хосты индексируются и семантика раскладывается по полочкам (тематикам), далее по той же семантике каждому новому (старому, не важно) документу присваивается бирка - тематика, и это без каталога, хотя и он может принимать активное участие в классификации и без "еще искали" за пару лет хотя бы 😂 ...

а потом в расчет влияния ссылки ввести коэффициент (грубо: VхN), где V-виц, передаваемый странице N-коэффициент тематичности, от 0 до 1 ... и относительной удаленности или близости тематик

канэшна если догадга верна, то в первую очередь, с практической точки зрения 😂 , надо искать близкие тематики (то есть с коэффициентом стремящимся к 1), окромя точного соответствия, которого всегда мало, особенно в жестких темах 🚬

"Победы - не окончательны, поражения - не смертельны, вопрос в том - достанет ли воли продолжать" - Уинстон Черчиль
Deni
На сайте с 15.04.2006
Offline
355
#83

Юрий Апостол,

У Вас в рассуждении есть ошибки. Этот сайт в ЯК

http://search.yaca.yandex.ru/yca/cy/ch/tooyoo.ru/ - не описан в Яндекс.Каталоге
http://bar-navig.yandex.ru/u?show=31...tp://tooyoo.ru - Тематический ИЦ - 1900, Тема: Каталоги, Источник: Коллективный

Потом достаточно многим сайтам тематичность присваивается вручную/

В тоже время у меня сайт удалили из ЯК, тематичности тоже сейчас нет. Но яндекс знает о тематичности сайта :)

Hkey
На сайте с 30.09.2006
Offline
222
#84

>матрица метрик между ними {Mi,j}

Нереально тематик где 100. Матрица с 4900 ( (100* 100)/2 - 100 ) параметрами взятыми не на шару. И при добавлении новой тематики им прийдеться заново вводить параметры.

Если, тематика это вектор. Например один из его параметров характеризует гуманитарный<->естественный уклон тематики. То это сложно очень.

Хотя такую матрицу можно получить автоматом. (*) этот вариант запомним.

>так же тематику всех отдельных документов

Не реально. В метрике по которой сравнивают сайты должно быть очень много свойств каждого обьекта.

Для сайта кроме текста мы имеем входящие ссылки, исходящие ссылки, запросы по которым в него идет траф. Для документа мы имеем тоже самое но в сотни раз меньшее, если документ не морда. Т.е. точно оценить нельзя. Тем более в Яндекс каталоге не присваиваеться тематика документам. т.е. у нас нету выборки (нам не с чем сравнивать).

Есть какаето функция для определения. Яндекс примерно сбалансировал все ее коефициеты. И начал автоматом раздавать тематики. Причем я думаю он раздавать начал так Наиболее вероятная тематика Автомобили (вероятность столько то).

Раздал всем тематики и уже у него выборка значительно расширелась. Прошел по второму кругу тематики раздал еще точнее. И так раз 10 пока точность будет его устраивать. А после этого начнуться санкции.

Теперь вспомним (*) коефиценты в этой матрице с ростом точности выборки будут балансироваться. Как и коефы в функции определения тематики. Т.е. нужно время.

Что я хочу сказать

1. Яша постепенно будет определять тематику сайтов. пол - полтора года понадобиться чтобы с точность 99% определить 90% сайтов.

2. Яша не будет определять тематику внутрених. И будет бояться автосанкции делать либо будет делать намного слабее.

Что можно.

Можно ставить внутрение ссылки.

Можно статьи в клике от морды.(даже если определят тематику внутрених)

Можно тематические морды.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Юрий Апостол
На сайте с 12.05.2006
Offline
20
#85
Deni:
У Вас в рассуждении есть ошибки. Этот сайт в ЯК

Действительно. Скорее всего ошибся при копировании из множества проверяемых сайтов. Но среди проверенных есть такие, которые однозначно в ЯКе никогда не были (в том числе и мои). Поэтому и утверждаю, что тематика определяется не только на основании наличия сайта в определённом разделе Яндекс.Каталога.

Ceres:
Юрий Апостол, давайте поверим Яндексоидам, что они умеют определять тематику всех сайтов в рунете, а так же тематику всех отдельных документов

Я в этом не сомневался. :) Хотел показать сомневающимся, что тематика определяется, и её можно узнать с помощью бара.

Александр Тер-Арутюнов
На сайте с 12.04.2004
Offline
72
#86
Hkey:

Что я хочу сказать
1. Яша постепенно будет определять тематику сайтов. пол - полтора года понадобиться чтобы с точность 99% определить 90% сайтов.
2. Яша не будет определять тематику внутрених. И будет бояться автосанкции делать либо будет делать намного слабее.

1. если процесс начинается сегодня, а не закончился условно к конференции ...

2. а чего им бояться? 😂

Hkey
На сайте с 30.09.2006
Offline
222
#87

Тематику отдельных документов определить нельзя! Только сайтов.

1. Для определения тематики с хорошей точностью нет эталонной выборки (в ЯК нету внутрених страниц с тематикой). Конечно можно взять с ДМОЗ но их мало, а документов в рунете много. Это как учить ребенка читать китайские иероглифы по русскому букварю.

2. Документы могут быть смежных тематик.

3. Чтобы хорошо определять тематику одного текста мало. Если было бы можно не было бы ссылочного был бы токо вИЦ.(не совсем правильно выразился, думаю мою мысль поймут) Что у нас для документа есть? Токо текст.

4. Нафиг это яше нужно? Счас внутреними мало торгуют.

5. Документов в 1000 раз больше чем сайтов много. Сравнивать нужно с выборкой. Это займет много машинного времени.

P.S. Мне выгоднее чтобы Вы считали обратное (я размножаю статьи в 1000 копий чтобы яша их не склеил)

Hkey
На сайте с 30.09.2006
Offline
222
#88
AlexKats:
1. если процесс начинается сегодня, а не закончился условно к конференции ...
2. а чего им бояться? 😂

1. Видно по форуму, что не закончился, а только начился. Проводить процесс в котором зайдействован не один десяток прогеров и модераторов без проверок на выдаче - глупо. Тем более выборку яша начал активно наращивать в последнее время.

2. Если они санкции наложат просто так на половину сайтов. Просто так Яша никому не ставил санкции.

Александр Тер-Арутюнов
На сайте с 12.04.2004
Offline
72
#89

Hkey, если отталкиваться от тезиса, что Яндексу от роду неделя, то Вы абсолютно правы - им еще расти и расти :)

A
На сайте с 10.01.2005
Offline
106
#90

Нащет тематики смешной пример: после апдейта зачастили на сайт по искусству по запросу носки(далее город). Я не мог понять в чем дело -сайт ваще не заспамлен. Сегодня посмотрел, наконец, серп. На сайте - художник Носков, (далее город)(внешних ссылок на страницу нет). Так что мое имхо - имеет место сложная иерархия ценностей:)

Сайты для людей - не выдумка, а быль. Если считать архитекторов и дизайнеров людьми:)Целевая реклама для целевой группы.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий