wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
oiL-k:
Хорошая тема после последних месяцев пустословия на форуме

Всякому овощу - свой срок :)

oiL-k:
Дайте определение, что есть пассаж и пляжите от этого.

Дык, я про то же. Как-то у Федоровского с Костиным прочел:


Под пассажем мы понимаем фрагмент документа, размера, не превышающего заданный, в котором встречаются все термы запроса, либо значительная часть термов запроса, суммарный IDF которых превышает заданное ограничение

http://www.dialog-21.ru/dialog2006/materials/html/Fedorovsky.htm

Вот и думаю - пассаж разработчики поисковиков всяк по-своему интерпертируют или же есть таки какой-то "корпоративный стандарт"?

TimeBomb:
Не видел пока желающих попасть в топ по "готовые фирмы", ставящих слова "готовые" и "фирмы" в разных концах документа.

Да разве ж в документе - главное? ;)

TimeBomb:
Взята она изначально была "от балды", видимо (номер телефона чьей-то бабушки?!)
Вот только с чего ее в свое время уменьшили в ~2.25 раза?

А фиг его знает. Вчера был, к примеру просто натуральный логарифм (кстати, ln(181910916) - всего-то чуть больше 21), а сегодня - логарифм не просто, и, может, совсем не натуральный. А, может, и не логарифм уже вовсе... А табулированные коэффициенты пересчитывать не с руки. Поэтому надо исходные данные в заданную нормировку загонять... ;)

Кот:
По остальному возражений нет?

- Капитан, почему батарея не ведет огонь?

- На это есть восемнадцать причин. Во-первых, нет снарядов... 😂

Кот:
С другой стороны, для согласования алгоритма пересекающихся пассажей с "идеей алгоритма tf*idf" достаточно разделить вес "общих" терминов между пассажами (это выше уже обсуждали). ИМХО, это не сложно сделать корректно.

Очередная надстройка, от которых Вы намеревались уйти. Шило на мыло.

euhenio:
а где было 1 819 103 916? Я видел 800378936 вроде.

Было-было....

TimeBomb:
Меня тут вот что заинтересовало: что все-таки у них 1 819 103 916, а потом
800378936 означало? И почему поменялось? Оно ясно, что и то, и другое - это очень много, но все таки? а?

Да просто у них так обратная частота отнормирована была

Кот:
Соответственно, вопрос. Зачем так уродовать надстройками (кстати, тоже не идеальными) один алгоритм, когда другой (в чистом виде, без надстроек) позволяет достичь тех же результатов?

Это про пересекающиеся пассажи? Да хотя бы потому что учет одного термина несколько раз противоречит идее алгоритма tf*idf

jump:
охоже это слово отключили поскольку слово было только в ссылках!

А, может, ссылки отключили? ;)

Ну, убрали и убрали. Давно пора :)

euhenio:
ты имеешь в виду выкачивание весов отдельных слов? Очень удачно, что мы как раз недавно веса 100 тыс самых частотных слов распарсили

Вот, поди, вашего робота и забдили. Все могут говорить спасибо Жене :)

Кот:
В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей
[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.

Во-первых, цитата Сегаловича относится к конкретному примеру. Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж? Из-за наличия нескольких более тяжелых слов? Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет? Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.

Всего: 24501