Если мы имеем пассаж без повторов терминов, то вычисляем вес каждой словопозиции с учетом расстояния до всех остальных слов из запроса - Общие вопросы оптимизации

Про разделители («.» «?» «!» «,») в анкоре ссылки.

Maxman · 2007-07-02T15:21:45.0000000Z

Хочется поднять вопрос по текстовым разделителям в анкоре. Все ли согласны с мнением, что Яндекс учитывает в анкоре ссылки только тот текст, который находится до разделителей «.» «?» «!» , а тот, что после, игнорирует? И считает ли Яндекс разделителем запятую «,» ?

357

euhenio

16 октября 2007, 08:13

#231

Кот:
интуитивно, не кажется ли Вам, что документ [aa aa bb cc dd] желательно поместить в СЕРПе выше документа [aa bb cc dd] по запросу [aa bb] (при прочих равных)?

-с одной стороны, кажется, что желательно, и я об этом написал (с :)) С другой стороны, простота рулит. И должна использоваться.

Кот:
Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен. Прошу пояснить, по возможности.

-я же 2 раза написал: это я предположил. Давайте встречные предположения! :)

Кот:
Но возникнут сложности с "табулированным набором коэффициентов" - он же не резиновый

-в смысле, какие сложности? Не вижу сложностей.

Я не думаю, что есть пересекающиеся пассажи, тупо по причине:

1. Если есть переколдовка по документу - будет КУЧА вариантов пассажей, и при этом каждому слову надо учитывать, в какие пасссажи он входит, и что-то как-то уменьшать. Это и по расчетам геморройно.

wolf:
Мне кажется логичным, что каждый термин должен учитываться один раз, независимо от того, сколько раз он встречается в запросе или пассаже.

-примерно согласен

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

16 октября 2007, 08:20

#232

-примерно согласен

Да в выдаче вроде примерно видно, только интересно, всегда ли берется первое вхождение, или еще что.

К

74

Кот

16 октября 2007, 09:32

#233

wolf:
А вот на этапе ранжирования должно учитываться всё, т.к. расстояния различные. И "табулированный набор коэффициентов" должен быть пусть не резиновый, но весьма обширный. Впрочем, не вижу тут никакой технической сложности.

euhenio:
в смысле, какие сложности? Не вижу сложностей.

Я правильно понимаю, что вы (в смысле, группа лиц :) ) предлагаете использовать простейший из возможных в данном случае алгоритмов расчета контекстуального сходства - раздельный расчет веса каждой (в том числе, повторяющейся) словопозиции? В этом случае, действительно, усложнять этот самый "табулированный набор" не потребуется.

Но как тогда быть с основным козырем яндексовского алгоритма расчета контекстуального сходства:

Предположим, ранжирование пассажей рассчитывается без взвешивания каждой позиции. Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:

• [aa __ BB __ cc dd ee]

• [aa BB cc dd __ __ ee]

Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй. Тогда как остальные, известные мне алгоритмы взвешивания пассажей [14], [15], будут считать веса обоих пассажей одинаковыми.

Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

К

74

Кот

16 октября 2007, 09:48

#234

euhenio:
с одной стороны, кажется, что желательно, и я об этом написал (с ) С другой стороны, простота рулит. И должна использоваться.

Так какая сторона перевешивает?

euhenio:
я же 2 раза написал: это я предположил. Давайте встречные предположения!

Сумма :)

euhenio:
Я не думаю, что есть пересекающиеся пассажи, тупо по причине:
1. Если есть переколдовка по документу - будет КУЧА вариантов пассажей

А вот это уже зависит от Правила формирования пассажей. Может куча, а может и меньше. Даже если и куча, что с того? Зато в точности выигрыш получаем.

euhenio:
и при этом каждому слову надо учитывать, в какие пасссажи он входит, и что-то как-то уменьшать. Это и по расчетам геморройно.

имхо, не сложнее всего остального, о чем мы уже знаем.

1183

wolf

16 октября 2007, 14:11

#235

Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно

А разве Сгалович не говорит именно о взвешивании каждой словопозиции отдельно чуть выше процитированного фрагмента?

Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием

Расчет веса словопозиции позволяет максимально точно учесть сходство пассажа и запроса. При этом выигрыш получит документ, у которого более «тяжелые», смыслоразличительные слова окажутся в А контексте, более похожем на контекст в запросе.

Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.

А я понял Сегаловича с точностью до наоборот :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

К

74

Кот

16 октября 2007, 15:28

#236

wolf, я немного другое в виду имел.

Если мы имеем пассаж без повторов терминов, то все относительно просто - производим "вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж". При этом используется табулированный набор коэффициентов и обеспечивается вот это:

Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:

• [aa __ BB __ cc dd ee]

• [aa BB cc dd __ __ ee]

Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй.

Но если у нас появляются повторы терминов, то при использовании того же самого табулированного набора коэффициентов(ТНК) возникает опасность что пассаж, обладающий меньшим контекстуальным сходством получит больший вес. Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов. С учетом разнообразия вариантов "повторяемости" терминов, объем этого "поднабора", имхо, будет на порядки больше, чем изначальный ТНК. При этом, как минимум, данный "поднабор" требует тщательной настройки и "обкатки", а, как максимум, создать подобный "поднабор" невозможно (т.е. ни при каких коэффициентах выполняться (во всем диапазоне возможных "значений") процитированное выше не будет).

При всем при этом, мы условно знаем, что ТНК применяется.

Учитывая чрезвычайно высокую сложность создания и "обслуживания" описанного выше "поднабора" (не говоря уже о том, что сама возможность его существования под вопросом), можно предположить, что ТНК существует без этого "поднабора".

Если ТНК существует без "поднабора", то механизм учета контекстуального сходства пассажа и запроса все же может корректно работать. Например, при использовании метода "пересекающихся пассажей", в которых повторяемость терминов отсутствует как класс.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

16 октября 2007, 17:06

#237

Кот:
Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов.

На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.

К

74

Кот

16 октября 2007, 21:42

#238

wolf:
На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.

Мне все не кажется таким простым. В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей

[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

17 октября 2007, 04:59

#239

Кот:
В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей
[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.

Во-первых, цитата Сегаловича относится к конкретному примеру. Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж? Из-за наличия нескольких более тяжелых слов? Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет? Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.

К

74

Кот

17 октября 2007, 10:08

#240

wolf:
Во-первых, цитата Сегаловича относится к конкретному примеру.

Не согласен. На конкретном примере показываются преимущества яндексовского алгоритма расчета веса словопозиции:

Сегалович:
Яндекс предпочтет тот {пассаж}, в котором окружение более тяжелого слова больше похоже на его окружение в запросе.......

wolf:
Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж?

Если это не очевидно, можно во второй пассаж добавить еще одну (или несколько) конструкций типа

_ _ _ AA _ cc _ _ _

wolf:
Из-за наличия нескольких более тяжелых слов?

Да, арифметика.

wolf:
Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет?

При существенной разнице в весах терминов, недобор веса пассажем из-за большого растояния между терминами bb cc и dd будет незначителен.

wolf:
Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.

Например, поднабором ТНК :) Т.к. если применить упрощенный алгоритм ограничения учета повторяющихся терминов, не получится уловить различия в релевантности для довольно большой группы пассажей.

Соответственно, вопрос. Зачем так уродовать надстройками (кстати, тоже не идеальными) один алгоритм, когда другой (в чистом виде, без надстроек) позволяет достичь тех же результатов?

Ведь все эти надстройки и модули необходимо еще грамотно настроить изначально, а в дальнейшем постоянно перенастраивать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Open AI тестирует память для ChatGPT

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Про разделители («.» «?» «!» «,») в анкоре ссылки.