NULL

Рейтинг
212
Регистрация
29.01.2003

Посетителей 903
Звонков до 65 в сутки

А можно нескромный вопрос?

Из этих 903 среднестатистических посетителей сколько живут в том же городе, что и Вы, т.е. какому числу посетителей не нужно звонить по межгороду? Что по этому поводу говорит Ваш Рамблер?

Вы в Рамблере седьмые по запросу двери,

... а мир ванн тоже седьмой - но по запросу Двери

чуть-чуть оффтопика:

Вот сейчас было нарушено 11е правило форума или нет?

нужно после несуществующей страницы в URL добавить слеш чего-нибудь

gif yandex-404-secretplace.gif
Я просто хочу сказать, что в одних случаях коэффициент корреляции между ВИЦ и тИЦ положительный, в других - отрицательный.

Лично мне трудно представить отрицательную корреляцию между ВИЦ и тИЦ. Такая (отрицательная) корреляция (чем больше А, тем меньше В) когда-нибудь может привести и к отрицательным значениям тИЦ. А таких значений пока никто не наблюдал (идея обнуления отрицательного тИЦ, как мне кажется, не в стиле Яндекса).

В этом форуме очень часто обсуждался предполагаемый алгоритм расчета тИЦ. Хочу предложить еще одну версию расчета тИЦ. Просьба серьезно не относиться и ногами не пинать. Исходные предположения:

- ВИЦ это PageRank

- для определения тематической близости 2х ресурсов используется

механизм, похожий на тот, который используется при нахождении страниц, «похожих на данную».

Этот механизм тоже уже обсуждался, вот цитата из обсуждения: «Существует два подхода определения близости двух документов - на основе статистической модели (мера косинуса - LSA/LSI/PLSA и т.д.) и технологии, основанные на знаниях». Запомним упоминание об этих 2х подходах. В этом же топике Вячеслав Тихонов дает ссылку на шикарный обзор этих самых статистических моделей. В этом обзоре утверждается, что для 2х документов, относящихся к разным кластерам в пространстве терминов можно построить матрицу Близость документов (similarity). Мне кажется, что пока, с целью упрощения изложения, можно утверждать, что из матрицы Близость документов (similarity) всегда можно получить скаляр (назовем его пока Simple Similarity), имеющий тот же «физический смысл» - близость документов в пространстве терминов или тематическое расстояние между документами.

- опять же таки можно пока предположить, что SimpleSimilarity ввиду высоких издержек на его расчет считается не для отдельных документов, а для сайтов в целом.

- ну и последнее предположение (чес. слово!) – для упрощения пока можно считать, что в качестве ВИЦ сайта можно брать ВИЦ его главной страницы.

Ну и теперь сама гипотеза. По аналогии с расчетом PR можно предложить следующий костяк формулы расчета тИЦ:

тИЦ (нашего сайта) = ВИЦ(S1)/SS(S1) + … + ВИЦ(Sn)/SS(Sn)

где:

S1…Sn – сайты, ссылающиеся на наш,

ВИЦ(Si) – собственно ВИЦ сайта (с допущением)

SSi – тематическое расстояние (SimpleSimilarity) между нашим сайтом и Si

Если попытаться попинать эту формулу, то вот что на первый взгляд можно заметить:

– с одной стороны она ужасно боится зеркал – расстояние между зеркалами равняется нулю, но с другой стороны к моменту расчета ВИЦ зеркала уже вроде бы слиты

- она объясняет случаи дикого разнобоя между ВИЦ и тИЦ

- эта формула\механизм\подход абсолютно не объясняет космический тИЦ самого Яндекса (19000) и тех, кто в первой семерке.

Я согласен, что сама попытка использовать Близость документов (similarity) из статистических моделей для расчета тИЦ очень спорна:

- в пространстве терминов может не учитываться что-нибудь очень узкоспециализированное и тогда сайт, злоупотребляющий такими профессиональными жаргонизмами может оказаться в полном пролете – его нельзя будет идентифицировать в таком пространстве, а значит и померить расстояния от него до ссылающихся на него сайтов.

- другая крайность состоит в идентификации сайтов, на которых практически нет терминов (не в том смысле, что там одни междометия и предлоги, а из-за чрезмерного обилия общеупотребимой лексики – «сайты ни о чем»)

Из преимуществ использования автоматизированных статистических моделей для расчета тИЦ можно выделить только одно (и то не понятно для кого) – относительно простой способ отлова спамеров – такие сайты наверное ну уж очень четко будут идентифицироваться в пространстве терминов.

Еще гипотеза о том, что для расчета тИЦ используется статистическая модель с пространством\базой терминов объясняет недавние свистопляски тИЦ`а – как и всякую базу, базу терминов нужно пополнять\обновлять, а при увеличении\изменении замкнутого пространство терминов, какая бы там метрика ни использовалась, скорее всего поползут и тематические расстояния между сайтами. Можно вспомнить о Яндекс.Каталоге и спросить – а какова его роль в определении тИЦ`а? А кто его знает! Тут как с яйцом и курицей, что первично - не всегда определишь. Может Каталог использовался для юстировки этой модели, а может наоборот – размер кластеров из модели говорил о том, что было бы не плохо перетасовать подрубрики каталога.

Если в Яндексе действительно научились автоматом формировать пространство\базу\зоопарк терминов с последующим ее использованием, то это наверное и есть тот следующий прорыв в СЕ после PR, о котором тут часто говорили «большевики».

у некоторых сайтов с ростом тИЦ теряются позиции в поиске

Значит у них динамика роста тИЦ меньше, чем у тех, кто их обогнал :)

А вообще-то условие"при всех неизменных параметрах" на высококонкурентном запросе и при текущем периоде обновления Яндекса - это что-то из области фантастики.

oppps ... был неправ - написано (не совсем о тире - о минусе):

Обратите внимание на знак "-". Это именно минус, а не тире и не дефис. Знак "-" надо писать через пробел от предыдущего и слитно с последующим словом, вот так: 'рак -гороскоп'. Если написать 'рак-гороскоп' или 'рак - гороскоп', то знак "-" будет проигнорирован.

Только из того, что написано неясно, каким именно способом этот знак будет проигнорирован.

это просто очередной глюк со стороны Яндекса

Неправда.

Если речь о таких запросах: "DVD ROM" и "DVD-ROM" то они должны отличаться, так как кавычки требуют поиска строгого соответствия.

Если же речь о таких запросах: DVD ROM и DVD-ROM то они должны отличаться, так как в этом случае первый запрос трактуется как DVD & ROM а второй так истолковать ну никак нельзя.

А про тире в справке ничего не написано...

теперь и в http://www.yandex.ru/cy значения изменились

Действительно изменились, а кнопка еще старая.

Прикольно - все изменяется прям на глазах. :)

Всего: 1163