Комментарии - baltic13 - Профиль вебмастера - Форум об интернет-маркетинге

27 декабря 2007, 18:10

gutako:
Собственно после недавней смены алгоритма многие сайты и запросы канули в лету... По моим наблюдениям канули недавние беки + молодые сайты + недавно начатые запросы (проекты)... ессено +- какие-то колебания...

есть два молодых проекта. сентябрьской регистрации. оба двигаются по достаточно конкурентным запросам. после смены 1 вылетел, а другой остался на месте.

gutako:

2. меньше доров будет лезть в топ, так как ссылки спамистые меньше эффекта будут давать...

но до сих пор они лезут в топ и именно из-за спама..

gutako:

почему я это пишу? Да потому, что новые проекты не лезут в топ, не лезут причем усиленно, а раньше все было зашибизь за 2-3 недели... В топ вылезли сайты, только на которые ссылки стоят уже месяца 2-3-4, независимо от того на сапе куплены, статьи это или собственные площадки...
Что кто думает по этому поводу?

временного ничего нет. подтвержденно выведенными проектами. ссылки в течение двух апов учитывались. может все-таки в другом проблема?☝

Фильтр ссылочной массы

27 декабря 2007, 12:12

wolf:
Я уже писал, что в случае анкор-файла в Яндексе формула : w=TFa*IDF*IDFa,

ваше мнение мне понятно. насчет IDF - на слово не верю🚬 проверить надо самому.

а вобщем, спасибо за комментарии и наметки.

Фильтр ссылочной массы

26 декабря 2007, 13:08

wolf, посчитал тут немного..получилось, что нормировка W безсмыслена по всем терминам анкор файла.

таким образом теперь вот так w = TF*IDF, без IDF текста

вопрос только в нормировке, думаю idf по Okapi, а вот с TF интереснее получается.

Фильтр ссылочной массы

26 декабря 2007, 12:45

wolf:
Тогда по чему предлагаете суммировать?

по всем терминам анкор файла.

Фильтр ссылочной массы

26 декабря 2007, 11:07

wolf:
Пардон, соврал. Нормировка, конечно, только нормировка вектора размерностью QL (равной количеству слов в запросе). В отличие от ранее рассматривавшихся нормировок переменных.

я только про QL=1 пока что :)

wolf:

Но фраза "нормировка по W" всё равно некорректна. Корректно будет "нормировка вектора W" или "норма вектора W"

немного недонес я мысль. подумаю как на векторах объснить.

Фильтр ссылочной массы

26 декабря 2007, 11:00

wolf:

Что есть х? Не вижу, чтобы Вы где-либо вводили эту переменную. Хотя, похоже, это и есть idf :)

поняли вы, скорее всего, правильно, но уточню, что x = кол-во документов всего/кол-во документов с термином

мы же про анкор файл... тогда не документов, а анкор файлов

Фильтр ссылочной массы

26 декабря 2007, 09:15

wolf:
Вот этого не понял. Давайте котлеты отдельно, мух - отдельно (т.е. текст документа и его анкор-файл). Хотя, опять таки догадываюсь, что Вы имели в виду... :)

описка, все изложенное для анкор файла.

то есть

W=TF*IDF в анкор файле, а потом нормирование по W во всём анкор файле.

Фильтр ссылочной массы

26 декабря 2007, 08:51

wolf:

Это не есть нормировка по W, как Вы писали. Это есть нормировка TF по какому либо параметру (например, длине документа или частотности самого частотного термина).

изложу мысль подробнее.

Давайте обозначать маленькими буквами НЕ нормированые величины, а большими - нормированные.

tf - не норм-а

TF - норм-а

итд.

W=TF*IDF в документе, а потом нормирование по W во всём анкор файле.

нормировки по w сущесвенно отличаются от нормировок tf и idf.

Нормировки tf

1. tf/tfmax

2. 0.5 + 0.5tf/tfmax

3. логарифмическая

4. по длине, bm25

Нормировки idf

1. log(x)

2. log(x)*log(x) (квадратичная)

3. log(x-1)

4. обратное количество документов с термином

Нормировки w (normw)

1. сумма w

2. sqrt(сумма w*w)

3. сумма w*w*w*w

4. max(w)

суммируется по всем терминам документа

Как не сложно заметить все они отличаются существенно, поэтому я говорю именно о последней, а не об нормировке tf или idf.

А вобщем нормированная величина определяется так (может определяться так, я на данный момент считаю так)

W = TF*IDF/normw

где normw - один из 4ёх видов нормировки w.

wolf:

IDF, кстати, логарифмируется и тоже загоняется тем самым в довольно небольшой числовой промежуток.

есть нормировка квадрат log, которая может расширить этот промежуток.

wolf:

А как к ним прикажете относиться? Я могу к ним относиться только как к объективной реальности. Если, она, конечно, существует... :)

относиться можно к ним по-другому.

фильтров нет, это все особенности функции. так все изначально задумано.. ну не важно. понятно вобщем.

Фильтр ссылочной массы

26 декабря 2007, 07:39

wolf:
Из результатов собственных исследований

понятно. а какова схема исследования?

по собственной теории предсказываете позиции исследуемых сайтов, тем самым подтверждаете или опровергаете предположения?

wolf:

Сорри, но я не понимаю, что Вы пишете. Нормирование по W???

нормировка W определенного термина в анкор файле по W остальных терминов в том же анкор файле. R. Larson, M. Hearst упоминали подобное.

Зачем это нужно?

затем, что TF нормируется на промежуток от 0 до 1 (или 0,5 -1 ), а IDF нет.

wolf, как вы относитесь к фильтрам на анкор файл? нужны ли они для повышения качества поиска?

Под фильтром понимаю ручной ввод ограничения какого либо параметра, например, если tf=1000,то урезать tf до 100.

Фильтр ссылочной массы

25 декабря 2007, 12:30

Webit:
И что в этом плохого?

плохо в этом то, что эти сайты будут менее релевантные.

грубый пример:

1ый сайт.

анкор файл состоит из двух слов.

"кондиционер" в текстах ссылок 1000 раз встречется

"купить" в текстах ссылок 10 раз встречется

2ой сайт.

анкор файл состоит из двух слов.

"кондиционер" в текстах ссылок 50 раз встречется

"купить" в текстах ссылок 50 раз встречется

Дак вот, 1ый будет менее релевантный впринципе, но стоять будет выше второго (если без нормировки по весу W).

Такое частенько встречал еще год назад, основной запрос тянул всякие "продать" , "купить", "продажа", сейчас основной запрос там же, а остального нету. На эксперимент не тянят :), но уверенности в правильном направлении добавляет.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Переиграть и победить: как анализировать конкурентов для продвижения сайта

baltic13