Олежина

Рейтинг
79
Регистрация
27.05.2006

Тему нашёл, но, почему-то, только в кэше Яндекс.Блогов. На форуме её уже удалили :(

Kalina:
У меня такое ощущение что учлась работа которую я делала в начале месяца, но никак не та которую я делала в последние 10 дней. В бэках вроде как вижу сайты, а в выдаче практически шиш.

Посмотрите на актуальность страницы. Думаю, что этот сайт один из самых быстроиндексируемых. А теперь делайте выводы, какая работа учлась

Сегодня робот (Useragent: Yandex/1.01.001 (compatible; Win16; I)) сайт 8 часов мучал забрал 8000 страниц. До этого не был на сайте почти неделю. Видимо, оживает

Запросы? Тематики? В расширенной или обычной? Как дети малые!

burunduk:
попробуйте его удалить что измениться?

В топе появились словоформы слова2, точные вхождения, исчезли. Вообщем, как я понимаю "слово2::19765 &/(0 0) !!%слово2::1819103916" - эквивалент логического оператора "или" (найти или это слово2 или то слово2), операнды которого не эквивалентны по весу

burunduk:
то что касаеться ::1819103916
какая-то константа в Яше для варианта поиска, т.к. данная величина встречается и в других запросах в частности в url на сохранённые копии по запросу link="....."

Вероятно, есть предел редкости слова, начиная с которого, всем словам назначается такой вес

pro-maker:
Предположу, что пассаж "слово2 &/(0 0) слово2" надо понимать как слово2 на нулевом растоянии от себя самого, т.е. суммировать веса (19765+1819103916), что должно повысить значимость точного вхождения.

Может, это некий аналог оператора "|" (или), т.е. найти "слово2|!!слово2", но документ содержащий "!!слово2" (по-этому у вес передается этому слову соответствующий, на несколько порядков больше) намного релевантнее чем документ, просто содержащий "слово2"

Каширин:
Редкость термина в коллекции?? 😎
Ранжирование в модели TF*IDF основано на естественном статистическом наблюдении, что чем больше локальная частота термина в документе (TF) и больше «редкость» (т.е. обратная встречаемость в документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину.

Разве не так?

Каширин:
Что означают числа - вот что интересно. Как рассчитываются и каков их физический смысл.

Ведь, на сколько я понимаю, цифры это это параметр idf. Значит они должны меняться после каждого апдейта, ведь количество документов в базе меняется, значит и количество слов в коллекции меняется? Или эти цифры обсчитываются на статичной коллекции документов, которую обновляют значительно реже, чем проводятся апдейты?

Flint:
Да и Миныч тоже понимал :)

Зачем же Вы раньше времени его хороните? :)

Всего: 142