_S_, под длинной в словах подразумевается не количество всех слов во всем анкор файле, а количество различных лемм. Например, если в анкор файле всего 4 слова: "цветок", "цветками", "фиолетовый", "фиолетовыми" , то длина будет 2.
Такая нормировка объясняет "разжижение" и "перенасыщение" анкор файла.
TFнорм=tfi/(tfi+k1+k2*N)
где tfi - tf i-ого термина; k1,k2 - коэффициенты, N - длина или количество лемм в анкор файле
Если воспользоваться тем, что (k1+k2*N) >> tfi, то получим
TFнорм=x-x*x
где x=tfi/(k1+k2*N). График зависимости TFнорм от N :
Любопытно, что это и есть тот самый закон Гука, о котором говорил Aik в этом посте
Что конечно же совпадение.
давайте.
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом оценивается важность слова ti в пределах отдельного документа.
я же написал TF=0.05, а проценты к слову.
N-ая ссылка бесполезный параметр и по нему нет смысла фильтровать сайты.
1. Текст
Текстовая релевантность включает в себя два параметра TF и IDF.
IDF - для запроса это константа и повлиять на нее нельзя.
TF - влиять можно.
Нормальным (близким к естественному) считается TF=0.05 или 5%.
Часто задают вопрос у меня 20% ключевика на странице. за это забанят?
Сказать ничего нельзя, потому что в алгоритме фильтрации за текст учавствует нормированный TF. В нормировку входит и TFmax(тошнота)(есть, конечно, другие варианты, но против эксперимента не попрешь).
2. Анкор файл
Соввершенно однозначно, что ситуация такая же как и с текстом, влиять можно на TF.
Но нормировка должна отличаться, потому что:
пример: анкор файл состоит из 10 одинаковых слов - это порядок, за такое точно ничего не будет(проверено и возражений быть не может), а вот страничка, состоящая из 10 одинаковых слов(уникальных) в индекс не попадёт.
Цифра 10 не критична, можно поменять на 50, чтобы ощутить разницу.
Нормировка анкор файла отлична от текстовой нормировки, вполне возможно, что по длине в словах.
И нигде и никак количество ссылок не фигурирует, важны соотношения.
atstyle, все передаётся замечательно и этим пользуются, чтобы лишний раз не анализировали :)
Californiy, приятная новость, жизнь в последнее время упрощает яндекс, за что и спасибо
Фриман, теперь-то поняли что имеет?
дак напишите, чтобы все понимали, а то что-то вас все не понимают.
имхо, вы сами не знаете чего хотите услышать
-1
вы загоняете себя в тупик - мы не знаем, мы не умеем, мы не понимаем.
всё что по морфологии вам интересно можно получить нужными запросами.
отчего же? подробнее можно. вы просите мнений, а сами не комментируюте 🤣
Фриман, а что тут бредить - все достаточно ясно :)
проверить очень просто - делаете запрос в кавычках такоцй , чтобы в выдаче был сайт на этому тексту ссылки. затем меняете падеж у любого слова и наблюдаете отсутсвие сайта.
например, "Пластиковые окна..." и "Пластиковыми окна..."
Отсюда вывод :