wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
baltic13:
аким образом теперь вот так w = TF*IDF, без IDF текста

Я уже писал, что в случае анкор-файла в Яндексе формула : w=TFa*IDF*IDFa,

где - TFа - нормированная tf по анкор-файлу

IDF - нормированная idf по корпусу текстов документов,

IDFа - нормированная idf по корпусу анкор-файлов.

Нормировки для IDF и IDFa - разные

price-maker:
Мужики! Поосторожней, а то взломаете случайно формулу яндекса, да еще на общем обозрении, а несчастным яндексоидам придется перекраивать всю систему поиска.

Случайно - это вряд ли... :)

baltic13:
я только про QL=1 пока что

Тогда по чему предлагаете суммировать?

Dervish:
Противозаконно - насколько я знаю, в компаниях человек обязан предупредить об уходе за две недели (так было у меня в контракте).

И Вы искренне полагаете, что по закону он не имеет права в эти две недели болеть? :)

P.S. Подленькие у Вас правила, однако...

Yaroslav_Adv:
Garini4, разбираются, как правильно ссылки ставить

Похоже, что это новый большой миф оптимизаторов 😂

wolf:
Это, как бы, не совсем нормировка. Я так понимаю, здесь подразумевается сумма контрастностей TF*IDF по всем терминам запроса. Сразу оговорюсь, что в данном случае под суммой понимается не обязательно сумма арифметическая.

Пардон, соврал. Нормировка, конечно, только нормировка вектора размерностью QL (равной количеству слов в запросе). В отличие от ранее рассматривавшихся нормировок переменных.

Но фраза "нормировка по W" всё равно некорректна. Корректно будет "нормировка вектора W" или "норма вектора W"

Mishael:
Если их все ТУПО фильтрануть - релевантность выдачи будет полный рандом, в коммерческих тематиках. Им это не нужно.

Да, подобная байка весьма популярна среди оптимизаторского сообщества. Якобы инсайд из Яндекса о том, что якобы они отрубили на тестовом сервере все ссылки с сапы и ужаснулись выдаче. Посему якобы сапу решили не трогать. Но, думаю, на самом-то деле не всё так мрачно. Релевантность будет. А вот рандом или нет - этот вопрос терзает только оптимизаторов. Ибо они релевантность оценивают только через призму возможности влиять на результаты поиска. Можно легко влиять - релевантность на высоте. Нельзя влиять - полный хаос и рандом :)

Advertiser:
А можно и неграмотно разговаривать

Можно. Только где-нибудь в другом месте.

baltic13:
W=TF*IDF в документе, а потом нормирование по W во всём анкор файле.

Вот этого не понял. Давайте котлеты отдельно, мух - отдельно (т.е. текст документа и его анкор-файл). Хотя, опять таки догадываюсь, что Вы имели в виду... :)

baltic13:
изложу мысль подробнее.
Давайте обозначать маленькими буквами НЕ нормированые величины, а большими - нормированные.
tf - не норм-а
TF - норм-а
итд.

Ок

baltic13:
Нормировки idf
1. log(x)
2. log(x)*log(x) (квадратичная)
3. log(x-1)
4. обратное количество документов с термином

Что есть х? Не вижу, чтобы Вы где-либо вводили эту переменную. Хотя, похоже, это и есть idf :)

baltic13:
Нормировки w (normw)
1. сумма w
2. sqrt(сумма w*w)
3. сумма w*w*w*w
4. max(w)
суммируется по всем терминам документа

Это, как бы, не совсем нормировка. Я так понимаю, здесь подразумевается сумма контрастностей TF*IDF по всем терминам запроса. Сразу оговорюсь, что в данном случае под суммой понимается не обязательно сумма арифметическая.

Вообще, как бы видно, что литературку по вопросу кой-какую Вы читали, но в терминах у Вас какой-то разброд :)

Advertiser, Вы упрямы, а я еще упрямей. На всякий случай, обращаю Ваше внимание, что до автоматической блокировки аккаунта Вам остается один штрафной балл. Думайте сами, стоит ли продолжать писать "не" с глаголами слитно ;)

Всего: 24501