ТИЦ и тематика

12
bondarev.pp.ru
На сайте с 29.09.2005
Offline
202
873

На конфе Садовский говорил, что Я умеет определять тематику документа, а BigBrother сказал, что тематика пока не учитывается в ссылочном. То есть, вероятно, на тот момент это была лишь сыроватая технология, пока не использованная в рабочих алгоритмах.

Вроде достаточно времени прошло, чтобы технологию откатали и оттестировали.

Так вот, возможно, нынешнее падение ТИЦев у большинства сайтов связано именно с новым методом определения тематики. Возможно, теперь для этого используется не близость сайтов в разделах ЯКа, а лексическая близость контента.

Если так, то было бы вполне логичным увеличить разность передаваемого ТИЦа у тематических и нетематических ссылок. Ведь раз тематика стала определяться более корректно, можно уменьшить эффект от нетематических ссылок и увеличить от тематических.

Жду ваших комментариев о здравости или глупости этой гипотезы.

P.S. Мне на самом деле плевать на ТИЦ, я за ним даже не слежу. Я даже не знаю, каким был ТИЦ подшефных проектов до пересчета, и я даже не узнал бы никогда о массовом падении ТИЦа, если бы не соответствующий топик на форуме.

Я боюсь другого - ведь эти изменения учета ссылок в расчете ТИЦ, какими бы они не были, могут коснуться и поиска. Может, это случится уже сегодня :)

bondarevpipes.com (http://ru.bondarevpipes.com/)
Р
На сайте с 23.05.2006
Offline
258
#1
bondarev.pp.ru:

Вроде достаточно времени прошло, чтобы технологию откатали и оттестировали.

Да кто ж его знает, сколько на это времени нужно..

bondarev.pp.ru:

Так вот, возможно, нынешнее падение ТИЦев у большинства сайтов связано именно с новым методом определения тематики. Возможно, теперь для этого используется не близость сайтов в разделах ЯКа, а лексическая близость контента.

Лексическая? То есть, дословная? Или уже смысловая? :)

bondarev.pp.ru:
Если так, то было бы вполне логичным увеличить разность передаваемого ТИЦа у тематических и нетематических ссылок. Ведь раз тематика стала определяться более корректно, можно уменьшить эффект от нетематических ссылок и увеличить от тематических..

У меня есть сайты на которых только тематические ссылки стоят, и на которые только тематические ссылки ссылаются. Увы, имхо,не оно..

bondarev.pp.ru:

Я боюсь другого - ведь эти изменения учета ссылок в расчете ТИЦ, какими бы они не были, могут коснуться и поиска. Может, это случится уже сегодня :)

А может не надо, а...? 😒

P.S. Несколько раз обсуждалось на форуме возможная схема работы алгоритма по определению тематики и, соответственно, тематичности, но реально возможного так и не нашли..

GAMMA
На сайте с 27.12.2006
Offline
154
#2

По большому счёту именно так и должна работать поисковая система. А то сейчас получается такая нездоровая ситуация - я ищу какую то нужную мне информацию а мне в результате поиска выдаётся не сама информация а сайт на котором стоит ссылка на другой сайт на котором уже вероятно есть то что мне нужно. А ведь должно быть наоборот. Сайты на которых есть что то полезное по моему запросу должны быть в самом верху по выдаче результатов поиска.

Мой сервис блогов (http://mublog.ru) и личный блог (http://blogroot.ru)
lastadm
На сайте с 15.01.2006
Offline
169
#3

Сайт не описанный в яке имеет 160 тИЦ на 130 ссылок - 130 страниц доноров заточены под тематику текста ссылки, а попросту имеют прямое вхождение в нужных местах с определенной частотой - все 130 доменов в непоте .... тИЦ вырос :)

Изучаем правила форума ()
bondarev.pp.ru
На сайте с 29.09.2005
Offline
202
#4
Разработчик:
Несколько раз обсуждалось на форуме возможная схема работы алгоритма по определению тематики и, соответственно, тематичности, но реально возможного так и не нашли..

Тематику-то как таковую определять и не надо. Яндексу вовсе не нужно знать, что это сайт о кондиционерах, а это - о ноутбуках. Достаточно иметь возможность сравнить тематики двух сайтов. Чтобы про два сайта о кондиционерах алгоритм сказал "это сайты одной тематики с вероятностью 90%", а про сайт о кондиционерах и о ноутбуках "это сайты одной тематики с вероятностью 5%".

А это задача вполне решаемая, хоть и с некоторой частотой ошибок. Если откроете два сайта о ноутбуках и составите рейтинги используемых на них слов, вы увидите, что эти рейтинги очень похожи. И наоборот, если составите такие рейтинги для двух сайтов совершенно разной тематики, рейтинги будут сильно различаться.

Ошибки возможны в некоторых случаях, но их количество будет небольшим. В частности, такой подход не покажет схожести тематик у сайтов двух медицинских клиник разного профиля. У одной верхушку рейтинга слов займут, к примеру, слова "флебология", "варикоз", "вены", а у второй - "стоматология", "дантист", "зубы". Алгоритм не поймет, что речь идет о двух медицинских сайтах.

Слово "сайты" вместо слова "документы" использовал нарочно, поскольку в расчете ТИЦ важны именно сайты. Однако, возможно, в расчете передаваемого по ссылке ТИЦ играет роль тематика лишь двух документов - с которого и на который стоит ссылка.

Р
На сайте с 23.05.2006
Offline
258
#5
GAMMA:
Сайты на которых есть что то полезное по моему запросу должны быть в самом верху по выдаче результатов поиска.

Ну, Слава Богу...теперь всё понятно стало..:)

Santim
На сайте с 03.06.2006
Offline
105
#6
На конфе Садовский говорил, что Я умеет определять тематику документа, а BigBrother сказал, что тематика пока не учитывается в ссылочном.

Имхо, но и сейчас она не учитывается, а определять определяется. Ну думаю падение тиц не связано с этим нововведением, если таковое и было.

лексическая близость контента.

Вы себе представляете эти мощности, чтобы все документы проверить на так называемую "лексическую" близость? Думаю на такое Я ещё не способен, хотя на ОЧЕНЬ хорошем кластере и с параллельным программированием такое сотоврят но с такими временными затратами и пока специалистов в России таких по пальцам.

Так что

Может, это случится уже сегодня

Думаю наступит и не завтра.... IMHO

lastadm
На сайте с 15.01.2006
Offline
169
#7

можно просто учитывать совпадения :) делов то :)

bondarev.pp.ru
На сайте с 29.09.2005
Offline
202
#8
lastadm:
тИЦ вырос :)

А какие сайты на него ссылаются? Есть ли среди них сайты той же тематики (с таким же набором ключевиков)? Достаточно небольшого количества, ведь передаваемый ТИЦ с сайта схожей тематики теперь может в десятки раз больше ТИЦа, передаваемого каталожной ссылкой, к примеру. Просто с более корректным определением тематики Яндексу больше ни к чему давать нетематическим ссылкам какой-то заметный вес, а тематическим можно дать побольше.

Р
На сайте с 23.05.2006
Offline
258
#9
bondarev.pp.ru:
А это задача вполне решаемая, хоть и с некоторой частотой ошибок. Если откроете два сайта о ноутбуках и составите рейтинги используемых на них слов, вы увидите, что эти рейтинги очень похожи. И наоборот, если составите такие рейтинги для двух сайтов совершенно разной тематики, рейтинги будут сильно различаться.

Конечно, теперь берём любой сайт, пичкаем спиз..,пардон, скопированным контентом про ноутбуки, и ссылку с морды на наш сайт, так? То-то веса в ней будет..:)

bondarev.pp.ru:
Ошибки возможны в некоторых случаях, но их количество будет небольшим. В частности, такой подход не покажет схожести тематик у сайтов двух медицинских клиник разного профиля. У одной верхушку рейтинга слов займут, к примеру, слова "флебология", "варикоз", "вены", а у второй - "стоматология", "дантист", "зубы". Алгоритм не поймет, что речь идет о двух медицинских сайтах.

Да, не поймёт, и это тоже неправильно, имхо..

bondarev.pp.ru
На сайте с 29.09.2005
Offline
202
#10
Santim:
Вы себе представляете эти мощности, чтобы все документы проверить на так называемую "лексическую" близость?

Особых дополнительных мощностей не нужно. Для анализа можно использовать основной индекс, а расчеты можно проводить лишь один раз в какое-то довольно продолжительное время для каждой ссылки. И хранить в анкор-базе еще одно поле, содержащее некий коэфициент схожести лексики.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий