Фильтр ссылочной массы

OL
На сайте с 17.04.2006
Offline
63
#171
wolf:
Вы считаете, что нормировка TF по анкор-файлу осуществляется по весу самого тяжелого термина?

По цене самого дорогого слова в директе :D :D

B1
На сайте с 04.07.2006
Offline
44
#172
wolf:
Отлично. Там же чёрным по белому сказано, что TF - это число вхождений леммы в документ. Как это соотносится с Вашими "по определению"? ;)

вы неправильно поняли, с как раз это и имел ввиду, что написано именно вхождений, с моим это никак не согласуется. меня вообщем-то это абсолютно не расстраивает.

значит не так изначально понял, теперь будем определять по науке, за что вам, wolf, наверное благодарен.

только это никак не меняет мысли, разве что все переформулировать надо на новый лад. смысл не измениться.

ygr
На сайте с 31.08.2005
Offline
37
ygr
#173
wolf:
Каким образом задавит? Вы считаете, что нормировка TF по анкор-файлу осуществляется по весу самого тяжелого термина? Или по самому тяжелому произведению веса на количество употреблений термина?

"Задавит" видимо обозначает что редкое слово(слово с большим весом) мы имеем право употреблять тоже редко. Рассчитать вроде легко(мат. ожиданием) зная вероятность встретить слово в анкор-файле. Если встретили слово больше чем нужно (не попали в некоторое отклонение, например дисперсия), то значит определяются ссылки как спам и получают понижающий коэффициент.

По моему так...

wolf
На сайте с 13.03.2001
Offline
1183
#174
ygr:
Задавит" видимо обозначает что редкое слово(слово с большим весом) мы имеем право употреблять тоже редко.

Да, я когда-то высказывал подобную гипотезу. Но она осталась всего лишь гипотезой :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
wolf
На сайте с 13.03.2001
Offline
1183
#175
Gopneg:
Ребят, а вы че ссылки и текст с калькулятором составляете?

Похоже на то :) Теперь я понял, почему народ так живо интересуется обратными частотами... :)

Tryerty
На сайте с 04.12.2007
Offline
68
#176

TF как и любая частотная характеристика имеет неоднозначное толкование, поэтому большинство литературных источников использует ее с уточняющими индексами (например, TFt,d - встречаемость термина t в документе d) или с дополнительной расшифровкой (как в приведенном выше документе). В противном случае информативность этой величины отсутствует (попробуйте, например, измерять частоту вращения просто в оборотах, без указания интервала времени).

wolf:
Теперь я понял, почему народ так живо интересуется обратными частотами... :)

А для вас этот интерес исключительно академический?

Движение вверх нельзя воспринимать как движение вперед не только с точки зрения физики. Достаточно взглянуть, ЧТО плавает на поверхности...
wolf
На сайте с 13.03.2001
Offline
1183
#177
Tryerty:
TF как и любая частотная характеристика имеет неоднозначное толкование, поэтому большинство литературных источников использует ее с уточняющими индексами (например, TFt,d - встречаемость термина t в документе d) или с дополнительной расшифровкой (как в приведенном выше документе). В противном случае информативность этой величины отсутствует (попробуйте, например, измерять частоту вращения просто в оборотах, без указания интервала времени).

TF - это не частота. Это количество употреблений. Непонимание этого факта и приводит к недоразумениям. Все переводят английское frequency самым распространенным вариантом "частота". Но забывают, что у него есть и еще один перевод - "частотность". В лингвистике частотностью лексемы называется

количество лексов (т.е. словоупотреблений) одной лексемы в данном тексте (или в корпусе текстов, или в речевом фрагменте)
http://slovari.yandex.ru/dict/krugosvet/article/krugosvet/6/1009216.htm

Точно также и IDF корректней переводить как "обратная частотность"

Tryerty:
А для вас этот интерес исключительно академический?

Для меня в первую очередь интерес составляет подтверждение гипотез. И только потом их использование. А не оперирование неподтвержденными ;)

Tryerty
На сайте с 04.12.2007
Offline
68
#178
wolf:
TF - это не частота. Это количество употреблений. Непонимание этого факта и приводит к недоразумениям. Все переводят английское frequency самым распространенным вариантом "частота". Но забывают, что у него есть и еще один перевод - "частотность".

Простите, но это синонимические игры. Приведенное Вами определение

количество лексов (т.е. словоупотреблений) одной лексемы в данном тексте (или в корпусе текстов, или в речевом фрагменте)

также привязано к некоторому объему текста, без указания которого бессмысленно.

Закон Ципфа-Мандельброта оперирует понятием частоты употребления слов, несущим тот же смысл при указании объема выборки (словаря).

PS: А что вы думаете по поводу темы топика? Хотя бы на уровне: да - нет - не знаю...

wolf
На сайте с 13.03.2001
Offline
1183
#179
Tryerty:
Простите, но это синонимические игры. Приведенное Вами определение
Цитата:
количество лексов (т.е. словоупотреблений) одной лексемы в данном тексте (или в корпусе текстов, или в речевом фрагменте)
также привязано к некоторому объему текста, без указания которого бессмысленно.

Само собой, привязано. Как же иначе то? Только вот когда частоту (в данном случае - безразмерную величину) и количество (вполне размерную) называют синонимами, это мне представляется неправильным ;) Я математик, а не философ.

Tryerty:
PS: А что вы думаете по поводу темы топика? Хотя бы на уровне: да - нет - не знаю...

Если Вы имеете в виду пост топикстартера, то смысл его от меня ускользает.

F2
На сайте с 19.06.2006
Offline
32
#180
_S_:
Любую информацию нужно использовать с умом. Сервис тоже полезен и для анкоров - для нахождения слов, с граничным весом.

А что значит граничный вес?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий