Про разделители («.» «?» «!» «,») в анкоре ссылки.

wolf
На сайте с 13.03.2001
Offline
1183
#211
Кот:
Важный вопрос: формируются пассажи по простым принципам (типа описанного Вами) или они (пассажи) могут пересекаться.

Есть какие-либо предпосылки для гипотезы о пересечении пассажей? Ведь в этом случае конкретный термин может быть учтен несколько раз.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
К
На сайте с 03.02.2005
Offline
74
#212
wolf:
Ведь в этом случае конкретный термин может быть учтен несколько раз.

От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.

wolf:
Есть какие-либо предпосылки для гипотезы о пересечении пассажей?

1). Возьмем Ваш пример. Имеем предложение [aa bb cc aa] и запрос [aa bb]. Я предполагаю, что формировать пассаж [aa bb _ aa] некорректно именно из-за того, что термин аа будет учтен дважды на этапе прохождения кворума. В результате может быть сильно искажена идея кворума. Возникнет опасность, что пассаж сможет преодолеть кворум не потому, что в нем имеются "тяжелые", смыслоразличительные термины, а только из-за того, что присутствуют в большом кол-ве "легкие" слова.

Другими словами, можно предположить, что пассаж формируется таким образом, что каждое слово из запроса входит в него не более одного раза.

2). Рассмотрим два документа-предложения:

[aa bb cc dd] и [aa aa bb cc dd]

где aa - "тяжелый", смыслоразличительный термин, bb cc dd - термины с относительно невысоким весом.

Согласитесь, что при запросе [aa bb], не плохо было бы за вторым документом признать больший вес, чем за первым. В частности, механизмом, позволяющим это сделать, может быть механизм пересекающихся пассажей.

euhenio
На сайте с 21.09.2001
Offline
357
#213
wolf:
В общем, я как бы почти готов согласиться со сторонниками запросозависимого пассажа. Меня смущают только следующие вещи:

1) Получается, что в случае условия "слова должны быть в одном документе", получаем один единственный пассаж, включающий в себя все упоминания терминов запроса в документе.

2) Если, как говорит, Женя Трофименко, все левые слова из пассажей выкидываются, то что в примере пассажей из http://company.yandex.ru/articles/romip2004.xml :

Цитата:
Предположим, ранжирование пассажей рассчитывается без взвешивания каждой позиции. Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово. Из двух пассажей:

• [aa __ BB __ cc dd ee]

• [aa BB cc dd __ __ ee]

Яндекс предпочтет тот, в котором окружение более тяжелого слова [BB] больше похоже на его окружение в запросе, то есть второй. Тогда как остальные, известные мне алгоритмы взвешивания пассажей [14], [15], будут считать веса обоих пассажей одинаковыми.

делают слова ee, которых нет в запросе?

по моему мнению

1. в принципе, да, единственно есть скользкий момент (не только с поиском в документе, и в предложении мб) - когда одинаковых уникальных найденных слов, удовлетворяющих контекстным ограничениям, больше одного. Я думаю, что на один пассаж одно уник. слово должно учитываться один раз (если слово в запросе одно), иначе можно "левыми" словами забить вес пассажа так, что пассаж пройдет кворум и будет найден. А реально неполный пассаж не находится. Подсветчик не считаем - он все выделяет.

2. Серег, фтыкай в текст, который сам цитируешь: :)

Пусть задан запрос [aa BB cc dd], где BB - самое «тяжелое» слово

-все 4 слова есть в запросе :)

PS Ну или м.б. ты имел в виду расстояния между найденными 4 словами? Это как раз тоже наводит на вывод, что остальные слова только разбавляют пассаж, играют роль дырок между найденными словами

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
К
На сайте с 03.02.2005
Offline
74
#214
euhenio:
все 4 слова есть в запросе

имхо, имелось в виду, что и [aa __ BB __ cc dd ee], и [aa BB cc dd __ __ ee] названы в статье пассажами. И если считать пассаж запросозависимым, то при запросе [aa BB cc dd] в эти пассажи не должны были войти термины ее

euhenio
На сайте с 21.09.2001
Offline
357
#215

Кот, ты про слово ее, мне кажется, Вольф вряд ли про него говорил.

Но если про ее, то зачем его отдельно вписывать. а другие слова прочерками обозначать? ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь :)

К
На сайте с 03.02.2005
Offline
74
#216
euhenio:
Кот, ты про слово ее, мне кажется Вольф вряд ли про него говорил.

По ходу, именно про это Вольф и говорил, имхо. Впрочем, он сам уточнит, я думаю.

euhenio:
с ошибкой в формуле расчета веса кворума

:) Я это и имел в виду, когда говорил:

Кот:
Но изначально предполагая, что все эти сведения строго соответствуют действительности, мы пришли к некоторым противоречиям. Самое время предположить, что (сознательно или нет) нас водят за нос
Что-то мне начинает казаться, что все эти ошибки... и не ошибки вовсе :)
wolf
На сайте с 13.03.2001
Offline
1183
#217
Кот:
По ходу, именно про это Вольф и говорил, имхо

Именно про ее я и говорил.

euhenio:
ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь

Ну, там просто скобочку просто не туда поставили. А тут целый новый элемент :)

И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...

К
На сайте с 03.02.2005
Offline
74
#218
wolf:
И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...

Ок. Вычеркиваем! :)

euhenio
На сайте с 21.09.2001
Offline
357
#219
wolf:
не нравится мне гипотеза с перекрывающимися пассажами

-вступай в наш альянс. Мне тоже не нравится. Пришли в качестве вступительного взноса 666 маленьких пассажей или один очень большой :)

Кот:
От подобного эффекта несложно избавиться. Скажем таким образом - уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа) вес каждого "общего" термина (входящего в несколько пассажей) уменьшается в N раз. Где N - кол-во пассажей, в которые входит термин.

-вес термина мы уменьшаем в КАЖДОМ ИЗ НАЙДЕННЫХ пассажей? Если да, то тогда во фразе А Б А по запросу А Б документ может не найтись, т.к. вес слова Б занижен - он входит в два перекрывающихся пассажа. Т.е., ни первый, ни второй пассаж по отдельности не будут найдены за счет заниженного веса слова Б. Но это нелогично - ведь фрагмент А Б есть в документе.

Ну или так. Есть запрос ноутбуки S123345, который переколдовывается обычно как ноутбуки && S123345 - в документе. Если вебмастер употребил фразу ноутбуки S123345 10 раз в документе - это 10 раз ноутбуки и 10 раз S123345. Итого вес каждой фразы (которых получается 100) уменьшается в 100 раз, и каждый фрагмент не найден.

Я думаю, что пересекающихся пассажей не бывает, и либо документ разрезается на Н неперекрывающихся пассажей тупо по порядку следования слов, либо выбирается один наиболее релевантный пассаж. Но первый вариант, имхо, разумнее.

К
На сайте с 03.02.2005
Offline
74
#220
euhenio:
Мне тоже не нравится

Это как с мелкомягкими? Всем не нравится, но все пользуются? :)

euhenio:
вес термина мы уменьшаем в КАЖДОМ ИЗ НАЙДЕННЫХ пассажей?

Да, в каждом. Но только после того, как отработал механизм кворума. И я об этом писал:

Кот:
уже после формирования пассажей через кворум (т.е. перед вычислением веса пассажа)

И еще я там написал: "Скажем таким образом... " , т.е. я не заострял на этом внимание, просто показал, что не сложно нивелировать негативные последствия многократного учета одного и того же термина.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий