wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
pro-maker:
Р = вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / sqrt(число_вхождений_самого_частого_слова или 7, если число_вхождений_самого_частого_слова меньше 7)

Виталий, я бы для строгости ввел бы еще коэффициентик:

Р = К * вИЦ * (число_найденных_ключевиков) * sqrt(ln(вес_ключевика)) / sqrt(max(число_вхождений_самого_частого_слова, 7))

И самое интересное - природа этого коэффициентика. Боюсь, что это ни фига не константа.

Mahrock:
Уже рисую. Как правильно писать: "хамлы" или "хамовьё"?

"Дамы и господа хамы" 😂

pro-maker:
тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает

Похоже, потому, что явно не всё определено в модели. ;)

Говорил же я - давайте сначала определим переменные и константы...

ХренРедькиНеСлаще:
забывающие, что тексты ссылок - это тоже КОНТЕНТ.

Только от него "тошнит" по другому, не так ли? ;)

ХренРедькиНеСлаще:
Больно уж стабильны и первичная формула и "альтернативная" формула при смене рэндомном страниц, которые сравниваем.

Ну вот вы, наконец-то и встретились с ее нестабильностью ;)

IndexSa:
Не соглашусь, явно как раз противоположное

Вы хотите сказать, что попадавшие двухсловники висели в топе только за счет контента?

MiRaj:
nickspring, функция должна быть гладкой.

Кстати, а почему, собственно? Производные от нее брать не надо же. :)

nickspring:
wolf, по сути цитаты ХРНС и первоисточника не взаимоисключают друг друга

А я разве его опровергал? :)

pro-maker:
Это подходит для однословника, если тройка и что-то не проходит кворум, запрос "слово1 слово2 слово3", а находится только "слово1 сслов2"? Поэтому и "найденных пассажей". Тоже самое и с весом пассажа, в том смысле, что вычисляется как-то по всем терминам, но в формулу релевантности в итоге входит как множитель.

Для многословников тоже подходит с оговоркой, что речь идет о словах, вошедших в пассажи, прошедшие кворум. И вес пассажа - явно недостаточное определение. Ибо разные слова в пассаже будут иметь разный вес, т.к. у них, к примеру, разные IDF.

pro-maker:
В-третьих, что еще важней, наконец-то, сегодня Хрнс признал, что возможно применение нескольких подходов к расчету релевантности.

Не удивлюсь, если с разнообразием тестовых примеров количество подходов существенно возрастет. :)

pro-maker:
Какие конкретные составляющие используются трудно предположить потому, что тот, кто пытался повторить расчеты, знают какой набор неопределенности возникает, когда начинаешь копаться и как хочется бывает надрать одно место этому Хренычу.

Виталий, и Вам тоже жалко бесцельно потраченного времени? ;)

ХренРедькиНеСлаще:
Но просьба в той теме не писать о двусловниках!
Пишите здесь.

А что писать? Двухсловники попадали явно не из-за контентной составляющей ;)

ХренРедькиНеСлаще:
Естественно, что такое же подозрение падает и на ссылочное, так как это тоже фактор ранжирования и фактор ранжирования КОНТЕНТА ссылок.

Контент ссылок строится несколько по другим принципам, чем текст. И низкое наличие в ссылочном контенте стоп-слов - вполне нормальное явление, в отличие от естественного текста.

Всего: 24501