Как Яндекс определяет тематику сайта?

12
anatolytver
На сайте с 12.01.2008
Offline
50
3182

Всем добрый день.

Мне интересно ваше мнение про то, каким образом Яндекс определяет тематику сайта (имеется в виду для передачи ТИЦа).

Расскажу немного про свой опыт.

Есть у меня несколько сайтов (СДЛов), а также недавно куплено на аукционе освобождающихся доменов (Ру-Центр) еще несколько доменов с ТИЦ 30-50, один в ЯК. На купленных доменах восстановил прежние сайты из веб-архива. И, соответственно, по показаниям ВМ стало ясно, что тематическая ссылка передает больший ТИЦ.

Год назад я наслушался рассказов о том, что Яндекс тематику не определяет, но видимо это утверждение касается только влияния на выдачу, а не на ТИЦ.

В общем, вопрос.

Выявил ли кто-нибудь примерный алгоритм того как Яндекс определяет эту самую тематику?

У меня, например, такое предположение.

Чтобы определить сходство тематики двух сайтов, берутся их тексты, "вытаскиваются" существительные и, возможно, прилагательные. Затем сравнивается количество вхождений каждого слова в первом и втором сайтах. Чем выше процент "совпадения количества", тем больше передается ТИЦ.

Вот, например, скажем, тематика акцептора "недвижимость в Твери".

Те доноры, у которых и то и другое слово встречается часто, передают максимально возможный ТИЦ.

А если, например, у донора встречается только слово "Тверь" (скажем, сайт администрации города), но ни слова про недвижимость, то ТИЦ передается на 50% от максимально возможного (при прочих равных).

Какие у вас соображения?

zZmeIOka
На сайте с 30.05.2007
Offline
249
#1

ого... сколько интересного написано.

Нет тематики сайта... есть тематика документа. Определяется элементарным лингвоанализом.

Все пГосто (с)

anatolytver
На сайте с 12.01.2008
Offline
50
#2
zZmeIOka:
ого... сколько интересного написано.
Нет тематики сайта... есть тематика документа. Определяется элементарным лингвоанализом.
Все пГосто (с)

Возможно так, но у меня предчувствие, что если тематика всего сайта совпадает, то ТИЦ передается больше, чем если у донора только один документ совпадает по тематике.

Это подтверждается тем, что ссылки с сайтов "желтых страниц" передают меньший ТИЦ, чем с тематических сайтов. Не говоря уж про каталоги.

Кстати, лингвоанализ ведь тоже разный бывает (имхо). И если примерно понять, как его проводит Яндекс, то можно написать программу/скрипт для того, чтобы перед покупкой ссылки можно было проанализировать страницу (а также морду донора) таким вот анализатором. Простите за тафтологию :)

А может, уже есть какие-то готовые программы?

zZmeIOka
На сайте с 30.05.2007
Offline
249
#3

anatolytver, сначала покажите мне хоть один сайт с контентом по одной тематике. Любому документу можно присвоить 3 разных, как минимум.

Что касается написания программы для анализа, да, было бы неплохо, когда напишете, готов приобрести ее у вас за хорошие деньги ;)

anatolytver
На сайте с 12.01.2008
Offline
50
#4
zZmeIOka:
anatolytver, сначала покажите мне хоть один сайт с контентом по одной тематике. Любому документу можно присвоить 3 разных, как минимум.

Что касается написания программы для анализа, да, было бы неплохо, когда напишете, готов приобрести ее у вас за хорошие деньги ;)

Ну насчет того, что тематик может быть несколько, я не спорю. Т.к. и существительные в документах, естественно, бывают самые разные.

Но если, предположим, слово "музыка" встречается у донора не только в одном документе, но и в других, в т.ч. на морде, то ТИЦ к акцептору с этой тематикой передастся более высокий.

zZmeIOka, я планирую написание такого скрипта и готов поделиться с Вами готовым продуктом бесплатно, если Вы посодействуете мне, предоставив какие-либо свои сайты с ТИЦ, скажем, от 50, для анализа (пишите в личку какие у Вас сайты, а также список ссылающихся страниц/сайтов).

KU
На сайте с 09.07.2009
Offline
61
#5

Так опубликован же алгоритм был яндексом, конечно часть поменялась но суть осталась той же.

Берется каталог(ЯК), разбивается на слова, высчитывается частота для каждого слова(словоформы не учитываются), далее берется тема опять же из ЯК, высчитывается частота слов в теме, потом высчитываются две вероятности:

1. Вероятность того что если встретилось слово то документ в теме

2. Вероятность того что если слово встретилось то документ не в теме

Далее анализируется текст тематику которого надо определить, и находятся темы близкие этому документу.

При фасетной организации эталонного каталога, тема более менее ярко выражена.

rihh
На сайте с 22.01.2007
Offline
79
#6
anatolytver:

Вот, например, скажем, тематика акцептора "недвижимость в Твери".
Те доноры, у которых и то и другое слово встречается часто, передают максимально возможный ТИЦ.
А если, например, у донора встречается только слово "Тверь" (скажем, сайт администрации города), но ни слова про недвижимость, то ТИЦ передается на 50% от максимально возможного (при прочих равных).

Какие у вас соображения?

Даже не представляю какие ресурсы нужны для этого

rihh добавил 09.11.2009 в 17:15

Мне кажется ноги растут из ЯК

У меня есть план
anatolytver
На сайте с 12.01.2008
Offline
50
#7
rihh:
Даже не представляю какие ресурсы нужны для этого

Да ресурсы не сильно большие на мой взгляд требуются

anatolytver добавил 09.11.2009 в 17:29

Karl_ung:
Так опубликован же алгоритм был яндексом, конечно часть поменялась но суть осталась той же.
Берется каталог(ЯК), разбивается на слова, высчитывается частота для каждого слова(словоформы не учитываются), далее берется тема опять же из ЯК, высчитывается частота слов в теме, потом высчитываются две вероятности:
1. Вероятность того что если встретилось слово то документ в теме
2. Вероятность того что если слово встретилось то документ не в теме
Далее анализируется текст тематику которого надо определить, и находятся темы близкие этому документу.
При фасетной организации эталонного каталога, тема более менее ярко выражена.

Спасибо, даже как-то не подумал про ЯК :)

Однако, мне кажется, реальных тематик может быть гораздо больше чем в ЯКе. Взять например "популяция крокодилов в новой гвинее".

Но, если ТИЦ изначально предназначался для ЯКа, то может больше тематик и не требуется.

Епрст, мне только что в голову пришла гениально простая идея, которая позволит обойтись без программ для лингвоанализа. Догадайтесь, какая ☝

The WishMaster
На сайте с 29.09.2005
Offline
2543
#8
anatolytver:
Но, если ТИЦ изначально предназначался для ЯКа, то может больше тематик и не требуется.

Для этого он и предназначен.

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
D
На сайте с 09.08.2009
Offline
22
#9

По моему тематика сайта Яндексом присваивается только в двух случаях - либо при попадании в ЯК, либо при использовании Яндекс директа ( неважно в качестве площадки или рекламируемого ресурса). Во всех остальных случаях тематики нет и на ТиЦ все ссылки влияют одинаково.

Обмен вебмани (https://rostov-wm.ru/) - Лучшие комедии (http://kinoteka.su/) - Онлайн футбол (http://betexplorer.ru/futbol_tv.html)
anatolytver
На сайте с 12.01.2008
Offline
50
#10
Dendy:
По моему тематика сайта Яндексом присваивается только в двух случаях - либо при попадании в ЯК, либо при использовании Яндекс директа ( неважно в качестве площадки или рекламируемого ресурса). Во всех остальных случаях тематики нет и на ТиЦ все ссылки влияют одинаково.

Неправда. На один из моих сайтов, который я купил на аукционе, стоит всего лишь 10 ссылок с сателлитов той же тематики, при этом никаких намеков на ЯК или директ. Итого: 10 ссылок = 10 ТИЦ.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий