- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
интуитивно, не кажется ли Вам, что документ [aa aa bb cc dd] желательно поместить в СЕРПе выше документа [aa bb cc dd] по запросу [aa bb] (при прочих равных)?
-с одной стороны, кажется, что желательно, и я об этом написал (с :)) С другой стороны, простота рулит. И должна использоваться.
Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен. Прошу пояснить, по возможности.
-я же 2 раза написал: это я предположил. Давайте встречные предположения! :)
Но возникнут сложности с "табулированным набором коэффициентов" - он же не резиновый
-в смысле, какие сложности? Не вижу сложностей.
Я не думаю, что есть пересекающиеся пассажи, тупо по причине:
1. Если есть переколдовка по документу - будет КУЧА вариантов пассажей, и при этом каждому слову надо учитывать, в какие пасссажи он входит, и что-то как-то уменьшать. Это и по расчетам геморройно.
Мне кажется логичным, что каждый термин должен учитываться один раз, независимо от того, сколько раз он встречается в запросе или пассаже.
-примерно согласен
Да в выдаче вроде примерно видно, только интересно, всегда ли берется первое вхождение, или еще что.
А вот на этапе ранжирования должно учитываться всё, т.к. расстояния различные. И "табулированный набор коэффициентов" должен быть пусть не резиновый, но весьма обширный. Впрочем, не вижу тут никакой технической сложности.
в смысле, какие сложности? Не вижу сложностей.
Я правильно понимаю, что вы (в смысле, группа лиц :) ) предлагаете использовать простейший из возможных в данном случае алгоритмов расчета контекстуального сходства - раздельный расчет веса каждой (в том числе, повторяющейся) словопозиции? В этом случае, действительно, усложнять этот самый "табулированный набор" не потребуется.
Но как тогда быть с основным козырем яндексовского алгоритма расчета контекстуального сходства:
• [aa __ BB __ cc dd ee]
• [aa BB cc dd __ __ ee]
Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй. Тогда как остальные, известные мне алгоритмы взвешивания пассажей [14], [15], будут считать веса обоих пассажей одинаковыми.
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.
с одной стороны, кажется, что желательно, и я об этом написал (с ) С другой стороны, простота рулит. И должна использоваться.
Так какая сторона перевешивает?
я же 2 раза написал: это я предположил. Давайте встречные предположения!
Сумма :)
Я не думаю, что есть пересекающиеся пассажи, тупо по причине:
1. Если есть переколдовка по документу - будет КУЧА вариантов пассажей
А вот это уже зависит от Правила формирования пассажей. Может куча, а может и меньше. Даже если и куча, что с того? Зато в точности выигрыш получаем.
и при этом каждому слову надо учитывать, в какие пасссажи он входит, и что-то как-то уменьшать. Это и по расчетам геморройно.
имхо, не сложнее всего остального, о чем мы уже знаем.
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно
А разве Сгалович не говорит именно о взвешивании каждой словопозиции отдельно чуть выше процитированного фрагмента?
Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием
Расчет веса словопозиции позволяет максимально точно учесть сходство пассажа и запроса. При этом выигрыш получит документ, у которого более «тяжелые», смыслоразличительные слова окажутся в А контексте, более похожем на контекст в запросе.
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.
А я понял Сегаловича с точностью до наоборот :)
wolf, я немного другое в виду имел.
Если мы имеем пассаж без повторов терминов, то все относительно просто - производим "вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж". При этом используется табулированный набор коэффициентов и обеспечивается вот это:
• [aa __ BB __ cc dd ee]
• [aa BB cc dd __ __ ee]
Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй.
Но если у нас появляются повторы терминов, то при использовании того же самого табулированного набора коэффициентов(ТНК) возникает опасность что пассаж, обладающий меньшим контекстуальным сходством получит больший вес. Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов. С учетом разнообразия вариантов "повторяемости" терминов, объем этого "поднабора", имхо, будет на порядки больше, чем изначальный ТНК. При этом, как минимум, данный "поднабор" требует тщательной настройки и "обкатки", а, как максимум, создать подобный "поднабор" невозможно (т.е. ни при каких коэффициентах выполняться (во всем диапазоне возможных "значений") процитированное выше не будет).
При всем при этом, мы условно знаем, что ТНК применяется.
Учитывая чрезвычайно высокую сложность создания и "обслуживания" описанного выше "поднабора" (не говоря уже о том, что сама возможность его существования под вопросом), можно предположить, что ТНК существует без этого "поднабора".
Если ТНК существует без "поднабора", то механизм учета контекстуального сходства пассажа и запроса все же может корректно работать. Например, при использовании метода "пересекающихся пассажей", в которых повторяемость терминов отсутствует как класс.
Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов.
На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.
На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.
Мне все не кажется таким простым. В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей
[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.
В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей
[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.
Во-первых, цитата Сегаловича относится к конкретному примеру. Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж? Из-за наличия нескольких более тяжелых слов? Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет? Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.
Во-первых, цитата Сегаловича относится к конкретному примеру.
Не согласен. На конкретном примере показываются преимущества яндексовского алгоритма расчета веса словопозиции:
Яндекс предпочтет тот {пассаж}, в котором окружение более тяжелого слова больше похоже на его окружение в запросе.......
Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж?
Если это не очевидно, можно во второй пассаж добавить еще одну (или несколько) конструкций типа
_ _ _ AA _ cc _ _ _
Из-за наличия нескольких более тяжелых слов?
Да, арифметика.
Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет?
При существенной разнице в весах терминов, недобор веса пассажем из-за большого растояния между терминами bb cc и dd будет незначителен.
Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.
Например, поднабором ТНК :) Т.к. если применить упрощенный алгоритм ограничения учета повторяющихся терминов, не получится уловить различия в релевантности для довольно большой группы пассажей.
Соответственно, вопрос. Зачем так уродовать надстройками (кстати, тоже не идеальными) один алгоритм, когда другой (в чистом виде, без надстроек) позволяет достичь тех же результатов?
Ведь все эти надстройки и модули необходимо еще грамотно настроить изначально, а в дальнейшем постоянно перенастраивать.