Про разделители («.» «?» «!» «,») в анкоре ссылки.

euhenio
На сайте с 21.09.2001
Offline
357
#231
Кот:
интуитивно, не кажется ли Вам, что документ [aa aa bb cc dd] желательно поместить в СЕРПе выше документа [aa bb cc dd] по запросу [aa bb] (при прочих равных)?

-с одной стороны, кажется, что желательно, и я об этом написал (с :)) С другой стороны, простота рулит. И должна использоваться.

Кот:
Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен. Прошу пояснить, по возможности.

-я же 2 раза написал: это я предположил. Давайте встречные предположения! :)

Кот:
Но возникнут сложности с "табулированным набором коэффициентов" - он же не резиновый

-в смысле, какие сложности? Не вижу сложностей.

Я не думаю, что есть пересекающиеся пассажи, тупо по причине:

1. Если есть переколдовка по документу - будет КУЧА вариантов пассажей, и при этом каждому слову надо учитывать, в какие пасссажи он входит, и что-то как-то уменьшать. Это и по расчетам геморройно.

wolf:
Мне кажется логичным, что каждый термин должен учитываться один раз, независимо от того, сколько раз он встречается в запросе или пассаже.

-примерно согласен

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
[Удален]
#232
-примерно согласен

Да в выдаче вроде примерно видно, только интересно, всегда ли берется первое вхождение, или еще что.

К
На сайте с 03.02.2005
Offline
74
#233
wolf:
А вот на этапе ранжирования должно учитываться всё, т.к. расстояния различные. И "табулированный набор коэффициентов" должен быть пусть не резиновый, но весьма обширный. Впрочем, не вижу тут никакой технической сложности.
euhenio:
в смысле, какие сложности? Не вижу сложностей.

Я правильно понимаю, что вы (в смысле, группа лиц :) ) предлагаете использовать простейший из возможных в данном случае алгоритмов расчета контекстуального сходства - раздельный расчет веса каждой (в том числе, повторяющейся) словопозиции? В этом случае, действительно, усложнять этот самый "табулированный набор" не потребуется.

Но как тогда быть с основным козырем яндексовского алгоритма расчета контекстуального сходства:

Предположим, ранжирование пассажей рассчитывается без взвешивания каждой позиции. Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:

• [aa __ BB __ cc dd ee]

• [aa BB cc dd __ __ ee]

Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй. Тогда как остальные, известные мне алгоритмы взвешивания пассажей [14], [15], будут считать веса обоих пассажей одинаковыми.

Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.

К
На сайте с 03.02.2005
Offline
74
#234
euhenio:
с одной стороны, кажется, что желательно, и я об этом написал (с ) С другой стороны, простота рулит. И должна использоваться.

Так какая сторона перевешивает?

euhenio:
я же 2 раза написал: это я предположил. Давайте встречные предположения!

Сумма :)

euhenio:
Я не думаю, что есть пересекающиеся пассажи, тупо по причине:
1. Если есть переколдовка по документу - будет КУЧА вариантов пассажей

А вот это уже зависит от Правила формирования пассажей. Может куча, а может и меньше. Даже если и куча, что с того? Зато в точности выигрыш получаем.

euhenio:
и при этом каждому слову надо учитывать, в какие пасссажи он входит, и что-то как-то уменьшать. Это и по расчетам геморройно.

имхо, не сложнее всего остального, о чем мы уже знаем.

wolf
На сайте с 13.03.2001
Offline
1183
#235
Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно

А разве Сгалович не говорит именно о взвешивании каждой словопозиции отдельно чуть выше процитированного фрагмента?


Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием

Расчет веса словопозиции позволяет максимально точно учесть сходство пассажа и запроса. При этом выигрыш получит документ, у которого более «тяжелые», смыслоразличительные слова окажутся в А контексте, более похожем на контекст в запросе.


Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.

А я понял Сегаловича с точностью до наоборот :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
К
На сайте с 03.02.2005
Offline
74
#236

wolf, я немного другое в виду имел.

Если мы имеем пассаж без повторов терминов, то все относительно просто - производим "вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж". При этом используется табулированный набор коэффициентов и обеспечивается вот это:

Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:

• [aa __ BB __ cc dd ee]

• [aa BB cc dd __ __ ee]

Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй.

Но если у нас появляются повторы терминов, то при использовании того же самого табулированного набора коэффициентов(ТНК) возникает опасность что пассаж, обладающий меньшим контекстуальным сходством получит больший вес. Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов. С учетом разнообразия вариантов "повторяемости" терминов, объем этого "поднабора", имхо, будет на порядки больше, чем изначальный ТНК. При этом, как минимум, данный "поднабор" требует тщательной настройки и "обкатки", а, как максимум, создать подобный "поднабор" невозможно (т.е. ни при каких коэффициентах выполняться (во всем диапазоне возможных "значений") процитированное выше не будет).

При всем при этом, мы условно знаем, что ТНК применяется.

Учитывая чрезвычайно высокую сложность создания и "обслуживания" описанного выше "поднабора" (не говоря уже о том, что сама возможность его существования под вопросом), можно предположить, что ТНК существует без этого "поднабора".

Если ТНК существует без "поднабора", то механизм учета контекстуального сходства пассажа и запроса все же может корректно работать. Например, при использовании метода "пересекающихся пассажей", в которых повторяемость терминов отсутствует как класс.

wolf
На сайте с 13.03.2001
Offline
1183
#237
Кот:
Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов.

На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.

К
На сайте с 03.02.2005
Offline
74
#238
wolf:
На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.

Мне все не кажется таким простым. В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей

[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.

wolf
На сайте с 13.03.2001
Offline
1183
#239
Кот:
В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей
[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.

Во-первых, цитата Сегаловича относится к конкретному примеру. Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж? Из-за наличия нескольких более тяжелых слов? Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет? Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.

К
На сайте с 03.02.2005
Offline
74
#240
wolf:
Во-первых, цитата Сегаловича относится к конкретному примеру.

Не согласен. На конкретном примере показываются преимущества яндексовского алгоритма расчета веса словопозиции:

Сегалович:
Яндекс предпочтет тот {пассаж}, в котором окружение более тяжелого слова больше похоже на его окружение в запросе.......
wolf:
Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж?

Если это не очевидно, можно во второй пассаж добавить еще одну (или несколько) конструкций типа

_ _ _ AA _ cc _ _ _

wolf:
Из-за наличия нескольких более тяжелых слов?

Да, арифметика.

wolf:
Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет?

При существенной разнице в весах терминов, недобор веса пассажем из-за большого растояния между терминами bb cc и dd будет незначителен.

wolf:
Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.

Например, поднабором ТНК :) Т.к. если применить упрощенный алгоритм ограничения учета повторяющихся терминов, не получится уловить различия в релевантности для довольно большой группы пассажей.

Соответственно, вопрос. Зачем так уродовать надстройками (кстати, тоже не идеальными) один алгоритм, когда другой (в чистом виде, без надстроек) позволяет достичь тех же результатов?

Ведь все эти надстройки и модули необходимо еще грамотно настроить изначально, а в дальнейшем постоянно перенастраивать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий