IDF яндекса не логарифмичен??

Hkey · 2008-12-09T10:15:50.0000000Z

В литературе указана логарифмическая зависимость. Но на практике нет. Смотрел по сервису MiRaj и к-ву найденных документов. СЛОВО IDF Число найденных документов в миллионах(Ni) разработка 5091 192 производство 3252 265 вендинг 1062907 1 оптимизация 31473 35 создание 4094 523 популяция 409337 2 пикап 150515 5 рекогносцировка 6030449 0,189 мелиорация 2395939 0.981 В базе Яндекса 4 644 миллионов документов Написал программу для счета log(4 644/Ni) - разница несколько порядков. Потом просто перемножил два числа (IDFi*Ni) получилось, что разница не превышает порядок. Причем в среднем Сi не увеличивалась с ростом Ni или IDF. Т.е. алгоритм IDF = Сonst/Ni Нигде я не ошибся?

122

G00DMAN

10 декабря 2008, 14:30

#11

aalexeev:
прюнинг дает неточность. Конечно фигня, я понимаю, и по закону больших чисел погрешность будет равномерно распределена.

Я вообще не уверен, что прюнинг дает неточность. Если она где-то и есть, то я навскидку не могу даже прикинуть, как формализовать эту неточность, не говоря уже о свойствах ее распределения. ;)

aalexeev:
может это лишь неточность дает, неужели прямо на несколько порядков??

Про несколько порядков не понял.

G00DMAN добавил 10.12.2008 в 17:37

Hkey:
На каждое слово в запросе одна лишняя итерация. Это не так уж много. Тем более это улучшает качество поиска.

Ну да логично с т.з. современного программинга, такими мелочами пренебрегаем. Я просто тоже когда-то был программером, лет 20 назад, в основном на асме или в кодах все писалось, поэтому такие растраты до сих пор реально коробят... :)

Если посчитать кол-во запросов к Яндексу в секунду и кол-во экономии на логарифмах, возможно, что абсолютные цифры большие получатся. Хотя конечно не факт, что это критично для мощностей или для умов разработчиков.

Не понял, как это улучшит качество поиска. 😕

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

Упал сайт на 90% Что если включить HTTP/2 Яндекс кобласит

222

Hkey

11 декабря 2008, 17:23

#12

G00DMAN:
Я вообще не уверен, что прюнинг дает неточность. Если она где-то и есть, то я навскидку не могу даже прикинуть, как формализовать эту неточность, не говоря уже о свойствах ее распределения. ;)
Про несколько порядков не понял.

G00DMAN добавил 10.12.2008 в 17:37
Ну да логично с т.з. современного программинга, такими мелочами пренебрегаем. Я просто тоже когда-то был программером, лет 20 назад, в основном на асме или в кодах все писалось, поэтому такие растраты до сих пор реально коробят... :)
Если посчитать кол-во запросов к Яндексу в секунду и кол-во экономии на логарифмах, возможно, что абсолютные цифры большие получатся. Хотя конечно не факт, что это критично для мощностей или для умов разработчиков.
Не понял, как это улучшит качество поиска. 😕

Помню написал функции преобразования регистра букв. Она ключевой была и работала не каждый раз проверяя строку а пачками по 200. Но все равно работала медлено. Так вот я проверку на Ё вырубил (она в таблице символов отдельно стоит и выходит из проверки меньше) ))). В результате у меня Ё преобразовывалась, но зато функция процентов на 30 быстрее работала)))

С оптимизацией кода знаком, когда под мобы шахматы писал. Это жесть была)

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

Букварикс представил новые бесплатные Search Console согласовал инструменты Facebook объединяет Ads Manager

19

goltsov

12 февраля 2009, 15:43

#13

G00DMAN:
Мой научно-исследовательский коллектив сейчас экспериментирует с аннотированием, пытается раскусить алгоритмы получения сниппетов в выдаче. Благо есть косячная статья с последнего ромипа. Аннотирование использует логарифм, потому я и считаю, что ранжирование использует его же.

А в чем же она косячная? Мои эксперименты со сниппетом по ВЧ после прочтения и осознования данной статьи дали неплохие результаты.

Пока люди просиживают часами на форумах в поисках истины, кто-то в это время зарабатывает деньги.

Что такое Power BI и зачем это нужно бизнесу

Курс биткоина превысил $50 тысяч