Как Яндекс определяет тематику сайтов

12 3
R
На сайте с 03.07.2006
Offline
54
rwr
3717

Собственно это догадки, но как вариант вполне возможно

Речь идет о тех сайтах которые не в Яндекс каталоге, но имеют ТИЦ

Каждая тема имеет более часто встречаемые устойчивые словосочетания. Для анализа была взята тема «создание сайтов». Были собраны тексты примерно из 300 сайтов посвященных этой теме. Все тексты были свалены в один котел и разбиты на словосочетания:

абзаца текста

абонентского обслуживания

абонентской плате

абонентской платы

абонентскую плату

абсолютно бесплатно

абсолютно бесполезный

абсолютно любые

абсолютно неблагодарное

абсолютно полноценной

абсолютно разноплановых

Всего получилось 30800 словосочетаний (без дублей)

Мое предположение что Яндекс также имеет такие базы. Берется сайт и его контент разбивается на такие словосочетания, затем словосочетания сравниваются с базами и присваивается тематичность сайту. Ну и далее ТИЦ получает от ссылок доноров по теме сайта.

Fi9hter
На сайте с 05.08.2008
Offline
248
#1

Никто этого не знает. Может и не определяет и вовсе. Для сайтов не в ЯК в этом особой надобности нет. Плюс еще наверное слишком большие мощности нужны чтобы у всех сайтов определять тематику, тем более после переиндексации. Ведь тематика меняется иногда.

R
На сайте с 03.07.2006
Offline
54
rwr
#2
Fi9hter:
Никто этого не знает. Может и не определяет и вовсе. Для сайтов не в ЯК в этом особой надобности нет. Плюс еще наверное слишком большие мощности нужны чтобы у всех сайтов определять тематику, тем более после переиндексации. Ведь тематика меняется иногда.

То что никто не знает, кроме нескольких человек в Яндексе это понятно. Если он не определяет тематику то откуда у сайтов берется ТИЦ? На самом деле мощности не нужны большие. Несколько скриптов легко справляются с такой задачей.

Fi9hter
На сайте с 05.08.2008
Offline
248
#3
rwr:
То что никто не знает, кроме нескольких человек в Яндексе это понятно. Если он не определяет тематику то откуда у сайтов берется ТИЦ? На самом деле мощности не нужны большие. Несколько скриптов легко справляются с такой задачей.

Кроме сайтов в ЯК просто без тематики ссылки учитываются. Ну а после переиндесации каждой скрипты заново будут тарабанить сайты?

R
На сайте с 03.07.2006
Offline
54
rwr
#4
Fi9hter:
Кроме сайтов в ЯК просто без тематики ссылки учитываются. Ну а после переиндесации каждой скрипты заново будут тарабанить сайты?

Ссылки конечно учитываются, но не все же дают ТИЦ. Тарабанить сайты не так то сложно, да и всего то раз в месяц надо. Железо ПС думаю за пару часов управится.

The WishMaster
На сайте с 29.09.2005
Offline
2542
#5
rwr:
но не все же дают ТИЦ

Почему не всегда?

Кому старенького креативного копирайтера? Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
R
На сайте с 03.07.2006
Offline
54
rwr
#6
The WishMaster:
Почему не всегда?

Немного не понял, может Вы хотели спросить почему не все?

The WishMaster
На сайте с 29.09.2005
Offline
2542
#7

rwr, да. Почему не все?

R
На сайте с 03.07.2006
Offline
54
rwr
#8
The WishMaster:
rwr, да. Почему не все?

Наверное никто не знает, кроме нескольких человек в Яндексе

LeonCrab
На сайте с 30.01.2007
Offline
189
#9

ТС, очень советую почитать Мадридский доклад Яндекса... может найдете для себя интересные вещи...

Помощь в создании сайтов на MODX, Laravel, Slim. В личку. Хостинг, которому я доверяю (https://beget.com/p181956).
R
На сайте с 03.07.2006
Offline
54
rwr
#10
LeonCrab:
ТС, очень советую почитать Мадридский доклад Яндекса... может найдете для себя интересные вещи...

Читал, но честно сказать не нашел там технической строны описания вычисления ТИЦ примено тому как описано в первом посте. Может у Вас на основе этого доклада удалось составить алгоритм вычисления ТИЦ?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий