Микро эксперимент - ничего не понимаю

E
На сайте с 31.01.2007
Offline
10
1541

Похоже, Яндекс добрался таки до моих тестовых страниц. Пытаюсь проверить ранжирование по частоте упоминания термина.

Исходные частоты:

1, 5, 10, 15, 20, 25, 30, 35

Размеры страниц:

404, 463, 460, 453, 454, 409, 527, 519

В поиске страницы распределились в таком порядке:

5, 10, 15, 25, 20, 30, 35, 1

Совсем непонятна перестановка 25 <-> 20, все остальное в принципе как-то укладывается в схему. Я где-то лажанул? Поясните пожалуйста, кто может.

Странички сделаны с использованием генератора "чепухи" (уже давал ссылку), и последующей ручной расстановкой ранжируемого слова.

Страницы: my-homka my-culpage my-homsite my-gigapag my-supasite my-megapage my-supapage my-megasite на домене by.ru

PS Просьба не упоминать "термин" и не делать ссылки на страницы.

PPS По ходу дела вес слова в Яндексе можно считать величиной не строго расчетной.

Так, нескольким разным ключевикам присвоен одинаковый вес: 1819103916, сайтов - от 1 до 8, частота упоминания по проиндексированной коллекции - от 1 до 141.

Update: Функция вида 0,068*(частота в документе) - 0,005 ln(кол-во термина + 1) хорошо укладывает результаты с 1 по 7, объясняя скачок в 15->25->20, но ... врет для 8-го (где кол-во термина = 1). Сам Excel коэффициенты для такого вида функции не находит, чтоб удовлетворяли граничным условиям.

Update2: Проверил т.н. "тошноту". По классической формуле:

( частота_в_документе * корень( минимум(кол-во_самого_частого_слова, 7) ) )

монотонностью даже не пахнет. По модифицированной -

k1*частота_в_документе + k2 * корень( минимум(кол-во_самого_частого_слова, 7) )

точно также не подбираются коэффициенты для монотонности.

Если я правильно понимаю, то вычисляемая рядом сервисов (здесь например) "тошнота" вообще не имеет никакого практического применения.

F
На сайте с 18.01.2007
Offline
109
#1

Раз уж этот пост в разделе для новичков:

частота упоминания по проиндексированной коллекции - от 1 до 141.

Как это считается и что даёт?

Функция вида 0,068*(частота в документе) - 0,005 ln(кол-во термина + 1) хорошо укладывает результаты с 1 по 7, объясняя скачок в 15->25->20

Дайте плз. ссылочку на эту функцию.

где кол-во термина = 1

ИМХО: если кол-во термина=1, то это вообще не термин, а случайное упоминание слова.

E
На сайте с 31.01.2007
Offline
10
#2
fuster:
Раз уж этот пост в разделе для новичков:

Как это считается и что даёт?

Общее количество вхождения термина по всем документам.

fuster:
Дайте плз. ссылочку на эту функцию.

Ссылочки нет, т.к. это мое предположение (гипотеза по функции ранжирования).

SD
На сайте с 03.04.2007
Offline
0
#3
eolin:
Update2: Проверил т.н. "тошноту". По классической формуле:
( частота_в_документе * корень( минимум(кол-во_самого_частого_слова, 7) ) )
монотонностью даже не пахнет. По модифицированной -
k1*частота_в_документе + k2 * корень( минимум(кол-во_самого_частого_слова, 7) )
точно также не подбираются коэффициенты для монотонности.
Если я правильно понимаю, то вычисляемая рядом сервисов (здесь например) "тошнота" вообще не имеет никакого практического применения.

Подскажите, пожалуйста, где можно почитать про т.н. "тошноту". И что значит "частота_в_документе"? Т.е. "частота" чего?

морда - танцы (http://www.globaldance.info/), только тематические сайты
SD
На сайте с 03.04.2007
Offline
0
#4
Update2: Проверил т.н. "тошноту". По классической формуле:
( частота_в_документе * корень( минимум(кол-во_самого_частого_слова, 7) ) )
монотонностью даже не пахнет. По модифицированной -
k1*частота_в_документе + k2 * корень( минимум(кол-во_самого_частого_слова, 7) )
точно также не подбираются коэффициенты для монотонности.
Если я правильно понимаю, то вычисляемая рядом сервисов (здесь например) "тошнота" вообще не имеет никакого практического применения.

Подскажите, пожалуйста, где можно прочитать про т.н. "часттоту". И что значит "частота_в_документе"? Не совсем понятно чего это "частота"

E
На сайте с 31.01.2007
Offline
10
#5

Частота в документе (в моем случае) - отношение количества вхождений слова к общему количеству слов. Еще называют TF. Чтение - TF-IDF.

Stripe
На сайте с 05.09.2006
Offline
222
#6

eolin, данные снимались во время апа или в ближайшие 2 дня после него?

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
A
На сайте с 25.10.2005
Offline
219
#7

1)

Исходные частоты:
1, 5, 10, 15, 20, 25, 30, 35
Частота в документе (в моем случае) - отношение количества вхождений слова к общему количеству слов.

Тогда в 1-й цитате % ?

2)Если уж проверяли "классическую" ( :) ) тошноту, надо было взять ряд (число вхождений) типа этого - 1,3,5,7,10,15,20,30

E
На сайте с 31.01.2007
Offline
10
#8
alut:
1)

Тогда в 1-й цитате % ?
2)Если уж проверяли "классическую" ( :) ) тошноту, надо было взять ряд (число вхождений) типа этого - 1,3,5,7,10,15,20,30

Не совсем точно выразился, количество вхождений слова в 1м случае. Не проценты, да. Размеры тоже в словах указаны.

Насчет классической "тошноты" - цели специально ее проверить не было. Но любые данные должны укладываться, если гипотеза верная. Если не укладывается - неверная.

Классическая математика - достаточно одного контрпримера, чтобы показать ложность гипотезы.

Да, там есть одна интересная и потенциально полезная деталь - что для низких количеств вхождений используется максимум из (7, кол-во вхождений). Насчет "волшебных" чисел тут много тоже говорили, почему 7, а не например 8 или 9. Но у Яндекса вообще много такого добра - одна степень 0.38 в голосовании по кворуму чего стоит. Или максимальный вес слова при переколдовке (см. здесь ранее).

Сейчас буду потихоньку уточнять табличку, сделаю еще с 3,6,7,8 вхождениями. Чтобы по максимуму в функции штрафа проверить.

E
На сайте с 31.01.2007
Offline
10
#9

Может кому интересно, появился небольшой апдейт:

Исходные данные снимались по состоянию на конец марта. Ряд ранжирования см. выше.

Затем проверял данные в марте, ранжирование страниц следующим образом:

5

10

25

15

20

30

35

1

То есть, с апреля по май Яндекс поменял текстовую релевантность (формулу). Подкрутили коэффициенты или что-то еще учитывают.

Далее по ходу было сделано изменение такого плана - была выставлена ссылка со странички 3го уровня вложенности, PR0/тИЦ 40, с одним словом - по которому идет исследование. Результат снимался на днях:

1

5

10

20

25

15

35

30

То есть результат вполне предсказуемый - одна ссылка перебила любые частоты употребления термина в тексте (ссылочное рулит, да). Примечательно другое - порядок опять поменялся. f=20 поднялась вверх на 2 позиции, f=30 - опустилась.

Страничка со ссылкой тоже отранжировалась - она последняя в выдаче.

Теперь немного информации по Google:

35

30

25

20

15

10

5

(с одной ссылкой)

Все абсолютно очевидно - чем больше термина, тем лучше. С единичным употреблением не со ссылкой вообще отсекается (видимо, фильтр на слишком низкую частоту/одиночную встречаемость). А вот страница со ссылкой отранжировалась. Да, PR=0 для нее, но PR PR-у рознь, возможно это повлияло. Возможно - просто фильтр работает на обычный текст, и обходит анкоры. Есть у кого достоверная информация на сей счет?

Вывод 1: "тошнота" есть только в Яндексе, для Google это неверно.

Вывод 2: Яндекс постоянно подкручивает текстовую релевантность - на анализаторах "тошноты" можно поставить крест. Общая тенденция - 5-10 употреблений термина сейчас золотая середина. Свыше - хуже ранжирование, очень редко (1-2 видимо) - тоже плохо.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий