есть два молодых проекта. сентябрьской регистрации. оба двигаются по достаточно конкурентным запросам. после смены 1 вылетел, а другой остался на месте.
но до сих пор они лезут в топ и именно из-за спама..
временного ничего нет. подтвержденно выведенными проектами. ссылки в течение двух апов учитывались. может все-таки в другом проблема?☝
ваше мнение мне понятно. насчет IDF - на слово не верю🚬 проверить надо самому.
а вобщем, спасибо за комментарии и наметки.
wolf, посчитал тут немного..получилось, что нормировка W безсмыслена по всем терминам анкор файла.
таким образом теперь вот так w = TF*IDF, без IDF текста
вопрос только в нормировке, думаю idf по Okapi, а вот с TF интереснее получается.
по всем терминам анкор файла.
я только про QL=1 пока что :)
немного недонес я мысль. подумаю как на векторах объснить.
поняли вы, скорее всего, правильно, но уточню, что x = кол-во документов всего/кол-во документов с термином
мы же про анкор файл... тогда не документов, а анкор файлов
описка, все изложенное для анкор файла.
то есть
W=TF*IDF в анкор файле, а потом нормирование по W во всём анкор файле.
изложу мысль подробнее.
Давайте обозначать маленькими буквами НЕ нормированые величины, а большими - нормированные.
tf - не норм-а
TF - норм-а
итд.
W=TF*IDF в документе, а потом нормирование по W во всём анкор файле.
нормировки по w сущесвенно отличаются от нормировок tf и idf.
Нормировки tf
1. tf/tfmax
2. 0.5 + 0.5tf/tfmax
3. логарифмическая
4. по длине, bm25
Нормировки idf
1. log(x)
2. log(x)*log(x) (квадратичная)
3. log(x-1)
4. обратное количество документов с термином
Нормировки w (normw)
1. сумма w
2. sqrt(сумма w*w)
3. сумма w*w*w*w
4. max(w)
суммируется по всем терминам документа
Как не сложно заметить все они отличаются существенно, поэтому я говорю именно о последней, а не об нормировке tf или idf.
А вобщем нормированная величина определяется так (может определяться так, я на данный момент считаю так)
W = TF*IDF/normw
где normw - один из 4ёх видов нормировки w.
есть нормировка квадрат log, которая может расширить этот промежуток.
относиться можно к ним по-другому.
фильтров нет, это все особенности функции. так все изначально задумано.. ну не важно. понятно вобщем.
понятно. а какова схема исследования?
по собственной теории предсказываете позиции исследуемых сайтов, тем самым подтверждаете или опровергаете предположения?
нормировка W определенного термина в анкор файле по W остальных терминов в том же анкор файле. R. Larson, M. Hearst упоминали подобное.
Зачем это нужно?
затем, что TF нормируется на промежуток от 0 до 1 (или 0,5 -1 ), а IDF нет.
wolf, как вы относитесь к фильтрам на анкор файл? нужны ли они для повышения качества поиска?
Под фильтром понимаю ручной ввод ограничения какого либо параметра, например, если tf=1000,то урезать tf до 100.
плохо в этом то, что эти сайты будут менее релевантные.
грубый пример:
1ый сайт.
анкор файл состоит из двух слов.
"кондиционер" в текстах ссылок 1000 раз встречется
"купить" в текстах ссылок 10 раз встречется
2ой сайт.
"кондиционер" в текстах ссылок 50 раз встречется
"купить" в текстах ссылок 50 раз встречется
Дак вот, 1ый будет менее релевантный впринципе, но стоять будет выше второго (если без нормировки по весу W).
Такое частенько встречал еще год назад, основной запрос тянул всякие "продать" , "купить", "продажа", сейчас основной запрос там же, а остального нету. На эксперимент не тянят :), но уверенности в правильном направлении добавляет.