- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Важный вопрос: формируются пассажи по простым принципам (типа описанного Вами) или они (пассажи) могут пересекаться.
Есть какие-либо предпосылки для гипотезы о пересечении пассажей? Ведь в этом случае конкретный термин может быть учтен несколько раз.
Ведь в этом случае конкретный термин может быть учтен несколько раз.
От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.
Есть какие-либо предпосылки для гипотезы о пересечении пассажей?
1). Возьмем Ваш пример. Имеем предложение [aa bb cc aa] и запрос [aa bb]. Я предполагаю, что формировать пассаж [aa bb _ aa] некорректно именно из-за того, что термин аа будет учтен дважды на этапе прохождения кворума. В результате может быть сильно искажена идея кворума. Возникнет опасность, что пассаж сможет преодолеть кворум не потому, что в нем имеются "тяжелые", смыслоразличительные термины, а только из-за того, что присутствуют в большом кол-ве "легкие" слова.
Другими словами, можно предположить, что пассаж формируется таким образом, что каждое слово из запроса входит в него не более одного раза.
2). Рассмотрим два документа-предложения:
[aa bb cc dd] и [aa aa bb cc dd]
где aa - "тяжелый", смыслоразличительный термин, bb cc dd - термины с относительно невысоким весом.
Согласитесь, что при запросе [aa bb], не плохо было бы за вторым документом признать больший вес, чем за первым. В частности, механизмом, позволяющим это сделать, может быть механизм пересекающихся пассажей.
В общем, я как бы почти готов согласиться со сторонниками запросозависимого пассажа. Меня смущают только следующие вещи:
1) Получается, что в случае условия "слова должны быть в одном документе", получаем один единственный пассаж, включающий в себя все упоминания терминов запроса в документе.
2) Если, как говорит, Женя Трофименко, все левые слова из пассажей выкидываются, то что в примере пассажей из http://company.yandex.ru/articles/romip2004.xml :
Цитата:
Предположим, ранжирование пассажей рассчитывается без взвешивания каждой позиции. Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:
• [aa __ BB __ cc dd ee]
• [aa BB cc dd __ __ ee]
Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй. Тогда как остальные, известные мне алгоритмы взвешивания пассажей [14], [15], будут считать веса обоих пассажей одинаковыми.
делают слова ee, которых нет в запросе?
по моему мнению
1. в принципе, да, единственно есть скользкий момент (не только с поиском в документе, и в предложении мб) - когда одинаковых уникальных найденных слов, удовлетворяющих контекстным ограничениям, больше одного. Я думаю, что на один пассаж одно уник. слово должно учитываться один раз (если слово в запросе одно), иначе можно "левыми" словами забить вес пассажа так, что пассаж пройдет кворум и будет найден. А реально неполный пассаж не находится. Подсветчик не считаем - он все выделяет.
2. Серег, фтыкай в текст, который сам цитируешь: :)
-все 4 слова есть в запросе :)
PS Ну или м.б. ты имел в виду расстояния между найденными 4 словами? Это как раз тоже наводит на вывод, что остальные слова только разбавляют пассаж, играют роль дырок между найденными словами
все 4 слова есть в запросе
имхо, имелось в виду, что и [aa __ BB __ cc dd ee], и [aa BB cc dd __ __ ee] названы в статье пассажами. И если считать пассаж запросозависимым, то при запросе [aa BB cc dd] в эти пассажи не должны были войти термины ее
Кот, ты про слово ее, мне кажется, Вольф вряд ли про него говорил.
Но если про ее, то зачем его отдельно вписывать. а другие слова прочерками обозначать? ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь :)
Кот, ты про слово ее, мне кажется Вольф вряд ли про него говорил.
По ходу, именно про это Вольф и говорил, имхо. Впрочем, он сам уточнит, я думаю.
с ошибкой в формуле расчета веса кворума
:) Я это и имел в виду, когда говорил:
Но изначально предполагая, что все эти сведения строго соответствуют действительности, мы пришли к некоторым противоречиям. Самое время предположить, что (сознательно или нет) нас водят за нос
По ходу, именно про это Вольф и говорил, имхо
Именно про ее я и говорил.
ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь
Ну, там просто скобочку просто не туда поставили. А тут целый новый элемент :)
И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...
И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...
Ок. Вычеркиваем! :)
не нравится мне гипотеза с перекрывающимися пассажами
-вступай в наш альянс. Мне тоже не нравится. Пришли в качестве вступительного взноса 666 маленьких пассажей или один очень большой :)
От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.
-вес термина мы уменьшаем в КАЖДОМ ИЗ НАЙДЕННЫХ пассажей? Если да, то тогда во фразе А Б А по запросу А Б документ может не найтись, т.к. вес слова Б занижен - он входит в два перекрывающихся пассажа. Т.е., ни первый, ни второй пассаж по отдельности не будут найдены за счет заниженного веса слова Б. Но это нелогично - ведь фрагмент А Б есть в документе.
Ну или так. Есть запрос ноутбуки S123345, который переколдовывается обычно как ноутбуки && S123345 - в документе. Если вебмастер употребил фразу ноутбуки S123345 10 раз в документе - это 10 раз ноутбуки и 10 раз S123345. Итого вес каждой фразы (которых получается 100) уменьшается в 100 раз, и каждый фрагмент не найден.
Я думаю, что пересекающихся пассажей не бывает, и либо документ разрезается на Н неперекрывающихся пассажей тупо по порядку следования слов, либо выбирается один наиболее релевантный пассаж. Но первый вариант, имхо, разумнее.
Мне тоже не нравится
Это как с мелкомягкими? Всем не нравится, но все пользуются? :)
вес термина мы уменьшаем в КАЖДОМ ИЗ НАЙДЕННЫХ пассажей?
Да, в каждом. Но только после того, как отработал механизм кворума. И я об этом писал:
уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа)
И еще я там написал: "Скажем таким образом... " , т.е. я не заострял на этом внимание, просто показал, что не сложно нивелировать негативные последствия многократного учета одного и того же термина.