Всякому овощу - свой срок :)
Дык, я про то же. Как-то у Федоровского с Костиным прочел:
http://www.dialog-21.ru/dialog2006/materials/html/Fedorovsky.htm
Вот и думаю - пассаж разработчики поисковиков всяк по-своему интерпертируют или же есть таки какой-то "корпоративный стандарт"?
Да разве ж в документе - главное? ;)
А фиг его знает. Вчера был, к примеру просто натуральный логарифм (кстати, ln(181910916) - всего-то чуть больше 21), а сегодня - логарифм не просто, и, может, совсем не натуральный. А, может, и не логарифм уже вовсе... А табулированные коэффициенты пересчитывать не с руки. Поэтому надо исходные данные в заданную нормировку загонять... ;)
- Капитан, почему батарея не ведет огонь?
- На это есть восемнадцать причин. Во-первых, нет снарядов... 😂
Очередная надстройка, от которых Вы намеревались уйти. Шило на мыло.
Было-было....
Да просто у них так обратная частота отнормирована была
Это про пересекающиеся пассажи? Да хотя бы потому что учет одного термина несколько раз противоречит идее алгоритма tf*idf
А, может, ссылки отключили? ;)
Ну, убрали и убрали. Давно пора :)
Вот, поди, вашего робота и забдили. Все могут говорить спасибо Жене :)
Во-первых, цитата Сегаловича относится к конкретному примеру. Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж? Из-за наличия нескольких более тяжелых слов? Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет? Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.