baltic13

Рейтинг
44
Регистрация
04.07.2006
Интересы
преф
Нормировка анкор файла отлична от текстовой нормировки, вполне возможно, что по длине в словах.

_S_, под длинной в словах подразумевается не количество всех слов во всем анкор файле, а количество различных лемм. Например, если в анкор файле всего 4 слова: "цветок", "цветками", "фиолетовый", "фиолетовыми" , то длина будет 2.

_S_:
Интересное предположение, на чем-нибудь основывается? 🚬

Такая нормировка объясняет "разжижение" и "перенасыщение" анкор файла.

TFнорм=tfi/(tfi+k1+k2*N)

где tfi - tf i-ого термина; k1,k2 - коэффициенты, N - длина или количество лемм в анкор файле

Если воспользоваться тем, что (k1+k2*N) >> tfi, то получим

TFнорм=x-x*x

где x=tfi/(k1+k2*N). График зависимости TFнорм от N :

Любопытно, что это и есть тот самый закон Гука, о котором говорил Aik в этом посте

Что конечно же совпадение.

wolf:
Тогда давайте определимся, что лично Вы подразумеваете под TF?

давайте.

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом оценивается важность слова ti в пределах отдельного документа.

wolf:
Неверно. TF измеряется не в процентах

я же написал TF=0.05, а проценты к слову.

Scoobstr:
Например 100 ссылок с анкором "розовые слоны" допустимы, 101ая уже понижает. Мы знаем, что у всех конкурентов уже по 100 ссылок.

Скорее всего, просто после N-ой ссылки каждая последующая теряет % в весе, и чем дальше - тем сильнее, при этом не опускаясь в ноль никогда, каждый раз немного добавляя.
Все, разумеется, имхо.

N-ая ссылка бесполезный параметр и по нему нет смысла фильтровать сайты.

1. Текст

Текстовая релевантность включает в себя два параметра TF и IDF.

IDF - для запроса это константа и повлиять на нее нельзя.

TF - влиять можно.

Нормальным (близким к естественному) считается TF=0.05 или 5%.

Часто задают вопрос у меня 20% ключевика на странице. за это забанят?

Сказать ничего нельзя, потому что в алгоритме фильтрации за текст учавствует нормированный TF. В нормировку входит и TFmax(тошнота)(есть, конечно, другие варианты, но против эксперимента не попрешь).

2. Анкор файл

Соввершенно однозначно, что ситуация такая же как и с текстом, влиять можно на TF.

Но нормировка должна отличаться, потому что:

пример: анкор файл состоит из 10 одинаковых слов - это порядок, за такое точно ничего не будет(проверено и возражений быть не может), а вот страничка, состоящая из 10 одинаковых слов(уникальных) в индекс не попадёт.

Цифра 10 не критична, можно поменять на 50, чтобы ощутить разницу.

Нормировка анкор файла отлична от текстовой нормировки, вполне возможно, что по длине в словах.

И нигде и никак количество ссылок не фигурирует, важны соотношения.

atstyle, все передаётся замечательно и этим пользуются, чтобы лишний раз не анализировали :)

Californiy, приятная новость, жизнь в последнее время упрощает яндекс, за что и спасибо

Фриман:
Потому что запрос высококонкурентный а при ранжировании по анкор-листу и ВИЦу строгая форма (как я думал) не должна иметь никакого значения.

Фриман, теперь-то поняли что имеет?

Фриман:
Зачем отвечать, не понимая вопрос?

дак напишите, чтобы все понимали, а то что-то вас все не понимают.

имхо, вы сами не знаете чего хотите услышать

-1

Фриман:

поиск по ним меняет формулу релевантности или веса в ней, это понятно.
Естественно меняется и выдача. Но мы не знаем за счет чего она меняется, за счет изменившейся релевантности по документу или по анкору? Или и по тому и по другому?

вы загоняете себя в тупик - мы не знаем, мы не умеем, мы не понимаем.

всё что по морфологии вам интересно можно получить нужными запросами.

Фриман:
baltic13 к сожалению из сказанного вами такого вывода сделать нельзя.

отчего же? подробнее можно. вы просите мнений, а сами не комментируюте 🤣

Фриман, а что тут бредить - все достаточно ясно :)

проверить очень просто - делаете запрос в кавычках такоцй , чтобы в выдаче был сайт на этому тексту ссылки. затем меняете падеж у любого слова и наблюдаете отсутсвие сайта.

например, "Пластиковые окна..." и "Пластиковыми окна..."

Отсюда вывод :

Фриман:

при определении релевантности запросов в нестрогой форме по анкор-листу аддитивно используется частотность полных и неполных вхождений.
Для запроса в строгой форме, разумеется, только частотность строгих вхождений.
Неужели никто не бредил на эту тему?
Всего: 253