baltic13

Рейтинг
44
Регистрация
04.07.2006
Интересы
преф
gutako:
Собственно после недавней смены алгоритма многие сайты и запросы канули в лету... По моим наблюдениям канули недавние беки + молодые сайты + недавно начатые запросы (проекты)... ессено +- какие-то колебания...

есть два молодых проекта. сентябрьской регистрации. оба двигаются по достаточно конкурентным запросам. после смены 1 вылетел, а другой остался на месте.

gutako:

2. меньше доров будет лезть в топ, так как ссылки спамистые меньше эффекта будут давать...

но до сих пор они лезут в топ и именно из-за спама..

gutako:

почему я это пишу? Да потому, что новые проекты не лезут в топ, не лезут причем усиленно, а раньше все было зашибизь за 2-3 недели... В топ вылезли сайты, только на которые ссылки стоят уже месяца 2-3-4, независимо от того на сапе куплены, статьи это или собственные площадки...
Что кто думает по этому поводу?

временного ничего нет. подтвержденно выведенными проектами. ссылки в течение двух апов учитывались. может все-таки в другом проблема?☝

wolf:
Я уже писал, что в случае анкор-файла в Яндексе формула : w=TFa*IDF*IDFa,

ваше мнение мне понятно. насчет IDF - на слово не верю🚬 проверить надо самому.

а вобщем, спасибо за комментарии и наметки.

wolf, посчитал тут немного..получилось, что нормировка W безсмыслена по всем терминам анкор файла.

таким образом теперь вот так w = TF*IDF, без IDF текста

вопрос только в нормировке, думаю idf по Okapi, а вот с TF интереснее получается.

wolf:
Тогда по чему предлагаете суммировать?

по всем терминам анкор файла.

wolf:
Пардон, соврал. Нормировка, конечно, только нормировка вектора размерностью QL (равной количеству слов в запросе). В отличие от ранее рассматривавшихся нормировок переменных.

я только про QL=1 пока что :)

wolf:

Но фраза "нормировка по W" всё равно некорректна. Корректно будет "нормировка вектора W" или "норма вектора W"

немного недонес я мысль. подумаю как на векторах объснить.

wolf:

Что есть х? Не вижу, чтобы Вы где-либо вводили эту переменную. Хотя, похоже, это и есть idf :)

поняли вы, скорее всего, правильно, но уточню, что x = кол-во документов всего/кол-во документов с термином

мы же про анкор файл... тогда не документов, а анкор файлов

wolf:
Вот этого не понял. Давайте котлеты отдельно, мух - отдельно (т.е. текст документа и его анкор-файл). Хотя, опять таки догадываюсь, что Вы имели в виду... :)

описка, все изложенное для анкор файла.

то есть

W=TF*IDF в анкор файле, а потом нормирование по W во всём анкор файле.

wolf:

Это не есть нормировка по W, как Вы писали. Это есть нормировка TF по какому либо параметру (например, длине документа или частотности самого частотного термина).

изложу мысль подробнее.

Давайте обозначать маленькими буквами НЕ нормированые величины, а большими - нормированные.

tf - не норм-а

TF - норм-а

итд.

W=TF*IDF в документе, а потом нормирование по W во всём анкор файле.

нормировки по w сущесвенно отличаются от нормировок tf и idf.

Нормировки tf

1. tf/tfmax

2. 0.5 + 0.5tf/tfmax

3. логарифмическая

4. по длине, bm25

Нормировки idf

1. log(x)

2. log(x)*log(x) (квадратичная)

3. log(x-1)

4. обратное количество документов с термином

Нормировки w (normw)

1. сумма w

2. sqrt(сумма w*w)

3. сумма w*w*w*w

4. max(w)

суммируется по всем терминам документа

Как не сложно заметить все они отличаются существенно, поэтому я говорю именно о последней, а не об нормировке tf или idf.

А вобщем нормированная величина определяется так (может определяться так, я на данный момент считаю так)

W = TF*IDF/normw

где normw - один из 4ёх видов нормировки w.

wolf:

IDF, кстати, логарифмируется и тоже загоняется тем самым в довольно небольшой числовой промежуток.

есть нормировка квадрат log, которая может расширить этот промежуток.

wolf:

А как к ним прикажете относиться? Я могу к ним относиться только как к объективной реальности. Если, она, конечно, существует... :)

относиться можно к ним по-другому.

фильтров нет, это все особенности функции. так все изначально задумано.. ну не важно. понятно вобщем.

wolf:
Из результатов собственных исследований

понятно. а какова схема исследования?

по собственной теории предсказываете позиции исследуемых сайтов, тем самым подтверждаете или опровергаете предположения?

wolf:

Сорри, но я не понимаю, что Вы пишете. Нормирование по W???

нормировка W определенного термина в анкор файле по W остальных терминов в том же анкор файле. R. Larson, M. Hearst упоминали подобное.

Зачем это нужно?

затем, что TF нормируется на промежуток от 0 до 1 (или 0,5 -1 ), а IDF нет.

wolf, как вы относитесь к фильтрам на анкор файл? нужны ли они для повышения качества поиска?

Под фильтром понимаю ручной ввод ограничения какого либо параметра, например, если tf=1000,то урезать tf до 100.

Webit:
И что в этом плохого?

плохо в этом то, что эти сайты будут менее релевантные.

грубый пример:

1ый сайт.

анкор файл состоит из двух слов.

"кондиционер" в текстах ссылок 1000 раз встречется

"купить" в текстах ссылок 10 раз встречется

2ой сайт.

анкор файл состоит из двух слов.

"кондиционер" в текстах ссылок 50 раз встречется

"купить" в текстах ссылок 50 раз встречется

Дак вот, 1ый будет менее релевантный впринципе, но стоять будет выше второго (если без нормировки по весу W).

Такое частенько встречал еще год назад, основной запрос тянул всякие "продать" , "купить", "продажа", сейчас основной запрос там же, а остального нету. На эксперимент не тянят :), но уверенности в правильном направлении добавляет.

Всего: 253