еще раз о весе слов

12
response
На сайте с 01.12.2004
Offline
324
1419

у меня два вопроса, для которых не хотелось создавать две темы, послькольку вопросы из одной области.

1) есть момент текста определения TF*IDF Ranking по википедии (Salton и Buckley):

"TF-factor is 0.5+0.5*nterm/maxn. nterm is the raw term frequency (the number of times the term is mentioned in the document) and maxn is the highest raw term frequency of all terms mentioned in the document."

вопрос: highest raw term frequency of all terms mentioned in the document - правильно ли я понимаю, что maxn - это количество максимально часто встречающегося слова в документе, кроме собственно given term? или не КРОМЕ? определенная логика в этом имхо есть, ибо если, например, есть документ, содержащий 10 слов sex и 20 porno, то TF-factor будет равен 0,75, в то время как если sex - 10, а porno - 2, при том, что остальные слова встречаются по одному разу за документ, то TF-factor для слова sex будет равен 3.

2) столь часто употребляемый термин вес слова. почитав по всей сети тексты уважаемого Миныча, я задаюсь вопросом: что есть вес слова? Вот например то самое значение, которое можно вытащить из ссылки Яндекса. Что это? базовый вес слова? Взяв выборку слов, я построил график зависимости от количества известных яндексу страниц с данным ключевиком и получил практически идеальную гиперболу, которая проваливается на пессимизированных словах. Соответственно, далее лично для меня идет путаница - что значит вес слова на странице? и как он рассчитывается тем же яндексом? Или вес слова на странице и вес слова известный Яндексу - это разные термины, с менее прозрачной связью? Я не понимаю, что это за вес. который известен Яндексу. Его собственный? Т.е. Яндекс берет страницу из базы (ищем то же слово sex например), считает вес каждого слова причем делает это не в отрыве от известных данных (т.е. вес каждого слова на странице в начале рассчетов равен нулю), а прибавляет (либо более сложно учитывает) собственное значение веса данного слова (на основании собственных данных из базы)?

Если я на правильно пути, то получается, что для создания идеального дорвея (к примеру, к примеру :)), продвигающегося по sex, необходимо набить страничку словом sex с определенной частотой (в рамках данной страницы), а остальные слова на странице должны встречаться по 1-2 раза максимум, при том, что они (слова) должны быть минимально часто встречаемы в базе яндекса (т.е. иметь большой Яндекс-вес)? Получается, что яндекс посчитает общую тяжесть :) страницы согласно весам слов, она получится довольно большой, плюс высокая плотность ключевика, хотя и имеющего низкия Яндекс-вес => первое место в серпе :))?

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
response
На сайте с 01.12.2004
Offline
324
#1

АП! ☝

response
На сайте с 01.12.2004
Offline
324
#2

ну ап, ну е-мае :) не обманывайтесь названием темы :)

response
На сайте с 01.12.2004
Offline
324
#3

судя по соотношению просмотров/ответов я либо законченный дурак, либо копаю в крайне верном направлении 🚬

tyumile
На сайте с 27.07.2005
Offline
138
#4

http://www.1doctor.ru/answer.php?id=407680633

Это что, идеальная страница для яндекса? 1 место по запросу "упражнения беременным", ТИЦ меньше 10, зато есть в каталоге...

response
На сайте с 01.12.2004
Offline
324
#5
tyumile:
http://www.1doctor.ru/answer.php?id=407680633
Это что, идеальная страница для яндекса? 1 место по запросу "упражнения беременным", ТИЦ меньше 10, зато есть в каталоге...

1) ты остальную выдачу внимательнее посмотри - помоему эта страница как раз наиболее релевантна

2) не вижу связи с моим вопросом - проясните.

[Удален]
#6

1) вес слова со страницы это процент слова относительно общего текста страницы.

2) вес сайта\страницы для Яндекса это процент слов обнаруженых на сайте\странице относительно базы всех документов с таким словом известных Яндексу.

Соответсвенно чем выше процент тем выше вес, при 20% и больше попадаете в бан...так что 15% максимум.

Вроде так....если ниче не напутал...

tyumile
На сайте с 27.07.2005
Offline
138
#7

Вес слова, насколько я понимаю, это не просто его встречаемость на странице, а его расположение. Ведь если убрать ключевое слово из текста и добавить его хедер, например, встречаемость останется той же, но вес слова изменится. Тогда сайт будет для поисковиков предпочтительней.

На той ссылке вес и встречаемость слова (по результам semonitor):

упражнения 13,758 1,61%

беременной 13,741 1,61%

упражнения беременной 27,500

Получается, если я сделаю страницу со встречаемостью 2% и весом 15 + каталог, то буду на первом месте?

[Удален]
#8

tyumile,

2) вес сайта\страницы для Яндекса это процент слов обнаруженых на сайте\странице относительно базы всех документов с таким словом известных Яндексу.

Я вот это вот имел ввиде без остальных факторов влияющих на выдачу...а их еще довольно много...

Вес слов на странице не единственный фактор влияющий на выдачу ☝ есть еще много чего... 🚬

tyumile
На сайте с 27.07.2005
Offline
138
#9

А я имел ввиду, что вес слова и его встречаемость - разные вещи.=))

response
На сайте с 01.12.2004
Offline
324
#10
^-^:

1) вес слова со страницы это процент слова относительно общего текста страницы.
2) вес сайта\страницы для Яндекса это процент слов обнаруженых на сайте\странице относительно базы всех документов с таким словом известных Яндексу.
Вроде так....если ниче не напутал...

1) это понятно. более того - это очень понятно.

2) быть может. только называемый мною "дефолтный" вес слова одинаков у яндекса для всех сайтов. по сути это IDF-factor, если я правильно понимаю. вопрос в том, как и где он используется.

наверное я вопрос непонятно задал, потому что все что тут написано - не в кассу :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий