Виталий, я бы для строгости ввел бы еще коэффициентик:
Р = К * вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / sqrt(max(число_вхождений_самого_частого_слова, 7))
И самое интересное - природа этого коэффициентика. Боюсь, что это ни фига не константа.
"Дамы и господа хамы" 😂
Похоже, потому, что явно не всё определено в модели. ;)
Говорил же я - давайте сначала определим переменные и константы...
Только от него "тошнит" по другому, не так ли? ;)
Ну вот вы, наконец-то и встретились с ее нестабильностью ;)
Вы хотите сказать, что попадавшие двухсловники висели в топе только за счет контента?
Кстати, а почему, собственно? Производные от нее брать не надо же. :)
А я разве его опровергал? :)
Для многословников тоже подходит с оговоркой, что речь идет о словах, вошедших в пассажи, прошедшие кворум. И вес пассажа - явно недостаточное определение. Ибо разные слова в пассаже будут иметь разный вес, т.к. у них, к примеру, разные IDF.
Не удивлюсь, если с разнообразием тестовых примеров количество подходов существенно возрастет. :)
Виталий, и Вам тоже жалко бесцельно потраченного времени? ;)
А что писать? Двухсловники попадали явно не из-за контентной составляющей ;)
Контент ссылок строится несколько по другим принципам, чем текст. И низкое наличие в ссылочном контенте стоп-слов - вполне нормальное явление, в отличие от естественного текста.