Пару вопросов по текстовому ранжированию и в частности - колдунщику

12
Тимон
На сайте с 08.06.2007
Offline
74
5106

На конфе Ашманова Евгений Трофименко наглядно показал нам, что контекстных ограничений нет - слова запроса Яндекс ищет во всем документе, а не как раньше - в пределах предложений. Ну т.е. раньше было, например, "пластиковые & окна" - искал два слова в одном предложении. Сейчас ищет по всему тексту.

При этом в строке запроса можно напрямую задать контекстные ограниченичения и тогда поиск будет вестить как раньше.

Однако, если задуматься... Функционал работы с пассажами внутри Яндекса остался... Возможно ли использование его вот следующим образом:

Например, есть у нас запрос "пластиковые окна дешево". Раньше колдовался примерно как "пластиковые & окна &&/(-3 3) дешево"

Есть два теста по одному предложению:

"пластиковые окна _ _ _ _ _ _ _ _ дешево" и
"пластиковые _ _ _ _ _ _ _ _ окна дешево"

Если опираться на переколдовку (которая косвенно оценивает близость пар слов по коллекции документов), то релевантнее будет тот документ, где пары слов отклоняются от своего оптимального расстояния на минимум. Таким образом, второй документ будет релевантнее, т.к. там рядом идут слова, которые в реальности встречаются реже.

Или логика другая - приоритет будет отдан первому предложению, т.к. там ближе идут слова, на которые раньше (а возможно и скрытно сейчас) накладывались к.о. в виде одинарного &, а не двойного &&

Тут еще надо вспомнить Миныча и ХРНС, которые выявили формулу оптимального расстояния между парами слов.

-------------

Пока не придумал, как проверить. Только если сайт новый создавать, т.к. в реальности такие сайты сложно найти.

------------

Сюда же добавлю:

(красные лямки рюкзака << url="www.alfa-ka.ru/xls/school/rukz.html") | (красные лямки рюкзака << url="zorand.livejournal.com/61707.html")

и

(красные && лямки && рюкзака << url="www.alfa-ka.ru/xls/school/rukz.html") | (красные лямки рюкзака << url="zorand.livejournal.com/61707.html")

При изменении к.о. для первой части запроса www.alfa-ka.ru обгоняет zorand.livejournal.com/61707.html

Вопрос: "Почему, если фактически ничего не поменялось - как ищет по всему документу, так и ищет?"

«Я слышу - и забываю, я вижу - и помню, я чувствую - и понимаю» (с) Конфуций Теперь я занимаюсь продвижением сайтов здесь (http://www.i-vi.ru/) :) SEO фтоппку! Учим правила фотосъема! (http://www.fotonotes.ru/) - мои заметки о фото
nik_kent
На сайте с 05.02.2008
Offline
178
#1
Тимон:
Сюда же добавлю:

(красные лямки рюкзака << url="www.alfa-ka.ru/xls/school/rukz.html") | (красные лямки рюкзака << url="zorand.livejournal.com/61707.html")

и


(красные && лямки && рюкзака << url="www.alfa-ka.ru/xls/school/rukz.html") | (красные лямки рюкзака << url="zorand.livejournal.com/61707.html")

При изменении к.о. для первой части запроса www.alfa-ka.ru обгоняет zorand.livejournal.com/61707.html
Вопрос: "Почему, если фактически ничего не поменялось - как ищет по всему документу, так и ищет?"

Ну так если всппомнить Трофименко, то запрос (красные лямки рюкзака) ~~ (красные && лямки && рюкзака) должен давать пустую выдачу, однако она не пустая. А вот (+красные +лямки +рюкзака) ~~ (+красные && +лямки && +рюкзака) дает пустую. Значит все-таки не так ищет?

Теперь:

(+красные +лямки +рюкзака << url="www.alfa-ka.ru/xls/school/rukz.html") | (красные лямки рюкзака << url="zorand.livejournal.com/61707.html")

(+красные && +лямки && +рюкзака << url="www.alfa-ka.ru/xls/school/rukz.html") | (красные лямки рюкзака << url="zorand.livejournal.com/61707.html")

местами не меняются.

Тимон:
Если опираться на переколдовку (которая косвенно оценивает близость пар слов по коллекции документов), то релевантнее будет тот документ, где пары слов отклоняются от своего оптимального расстояния на минимум. Таким образом, второй документ будет релевантнее, т.к. там рядом идут слова, которые в реальности встречаются реже.
Или логика другая - приоритет будет отдан первому предложению, т.к. там ближе идут слова, на которые раньше (а возможно и скрытно сейчас) накладывались к.о. в виде одинарного &, а не двойного &&

Как раз если опираться на переколдовку (которая косвенно оценивает близость пар слов по коллекции документов), то релевантнее будет первый документ, потому что именно у него пары слов отклоняются от своего оптимального расстояния на минимум.

Точно также, первый документ будет релевантнее, если опираться на здравый смысл:) Он более отвечает желанию пользователя, имхо.

С уважением, Николай.
Тимон
На сайте с 08.06.2007
Offline
74
#2

Вопрос тогда - почему выдача не пустая по запросу (красные лямки рюкзака) ~~ (красные && лямки && рюкзака)?

кстати, при добавлении к.о. в запрос также и при добавлении +, перестают работать переходы слов, может быть как-то с этим связано, например, запускается другой колдунщик, работает другой алгоритм, хз.

купить мазда

и

купить && мазда

mhz
На сайте с 16.05.2007
Offline
190
mhz
#3

Чуваки, вы не поверите!

Доклад Евгения:
Однако на момент написания этого доклада оператор «~~» уже исключает все формы слова,
включая переформулировки. В результате выдача по мазда ~~мазда пустая.

За это время уже многое изменилось.

По теме топика постараюсь написать позже. Извините.

Миниатюрный бультерьер Сахарок (http://www.bule4ka.ru/) — СДЛ о собачках. Вечные ссылки — безопасный способ продвижения и заработка. (http://miralinks.ru/users/registration/from:163)
nik_kent
На сайте с 05.02.2008
Offline
178
#4
Тимон:
Вопрос тогда - почему выдача не пустая по запросу (красные лямки рюкзака) ~~ (красные && лямки && рюкзака)?

Логичный ответ: потому что этот запрос колдуется не так.

Кстати обратите внимание: по этому запросу в выдаче остаются сайты на которых есть слова лямки и рюкзаки, но нет слова красный.

Работает кворум?

Если работает он, то где остальные страницы, на которых тоже есть лямки и рюкзаки, но нет слова красный?

Тимон
На сайте с 08.06.2007
Offline
74
#5
nik_kent:
Логичный ответ: потому что этот запрос колдуется не так.
Кстати обратите внимание: по этому запросу в выдаче остаются сайты на которых есть слова лямки и рюкзаки, но нет слова красный.
Работает кворум?
Если работает он, то где остальные страницы, на которых тоже есть лямки и рюкзаки, но нет слова красный?

Понятно, что не так колдуется - вопрос "как?", "что происходит?"

На счет кворума - если посчитать, учитывая старые веса слов, то лямки+рюкзак кворум проходят...

А вообще, мы чуть отклонились от темы - вопрос был в том, учитываются ли контекстные ограничения при расчете веса за словопозиции

nik_kent
На сайте с 05.02.2008
Offline
178
#6
Тимон:
А вообще, мы чуть отклонились от темы - вопрос был в том, учитываются ли контекстные ограничения при расчете веса за словопозиции

Возможно они учитываются примерно так как описывается в Ромипе2006, т.е. учитываются вхождения каждого слова запроса в отдельности, пар слов запроса, всех слов запроса и т.д.

Если следовать этой логике, то предпочтение опять же отдастся первому документу, потому что за пару пластиковые окна должно быть больше веса, чем за окна дешево.

Но сделать проверку в любом случае надо:)

Тимон
На сайте с 08.06.2007
Offline
74
#7
nik_kent:
Возможно они учитываются примерно так как описывается в Ромипе2006, т.е. учитываются вхождения каждого слова запроса в отдельности, пар слов запроса, всех слов запроса и т.д.
Если следовать этой логике, то предпочтение опять же отдастся первому документу, потому что за пару пластиковые окна должно быть больше веса, чем за окна дешево.
Но сделать проверку в любом случае надо:)

Кстати, перечитал Ромип 2006 - в принципе, Яндекс мог взять за основу текущего текстового ранжирования аддитивную модель Ромипа 2006. Но так сразу сложно, сказать - надо проверять.

Тимон добавил 27.11.2008 в 13:25

Вот еще вопрос на засыпку - почему по запросу ремонт цены москва - сайты находятся с пометкой НПС, хотя реально содержат все слова из запроса на странице

Например,

www.remont-kvartiri.ru

www.centre-a-stroy.ru

www.forbau.ru

Если поискать с к.о. &&, то тогда сниппет нормальный

mhz
На сайте с 16.05.2007
Offline
190
mhz
#8
nik_kent:
Работает кворум?

Похоже, так и есть.

По запросу [(красные лямки рюкзака) ~~ (красные && лямки && рюкзака)] выдача не пустая только потому, что увеличивается мягкость запроса и выкидывается одно из слов:

[(+красные лямки рюкзака) ~~ (красные && лямки && рюкзака)] — у одного сайта нет лямок, у другого — рюкзака;

[(красные +лямки рюкзака) ~~ (красные && лямки && рюкзака)] — выкидывается «красный»;

Ну и т. д.

Видимо, новые условия поиска влияют на переколдовку, поэтому в последнем запросе ЖЖ с вхождениями всех трёх слов стоит в конце топ10, после тех, у кого только «лямки» и «рюкзак». Вероятно, приоритет отдаётся именно этим словам, причём настолько, что о «красном» уже забывают.

Тимон:
Вот еще вопрос на засыпку - почему по запросу ремонт цены москва - сайты находятся с пометкой НПС, хотя реально содержат все слова из запроса на странице

Видимо, Яндекс, счёл в этом случае более весомым аргументом тексты ссылок. о.О

А задавая ограничение && вы, естественно, отдаёте приоритет поиску по контенту.

PS: Я, вообще, мало в этом понимаю, — просто тема уж очень интересная на фоне остальных %)

wolf
На сайте с 13.03.2001
Offline
1183
#9
Тимон:
слова запроса Яндекс ищет во всем документе

Я бы даже сказал - не только во всем документе :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Stripe
На сайте с 05.09.2006
Offline
222
#10

wolf, какие условия требуются для записи в сниппет, текста ссылок, при условии наличия всего текста на странице (пусть и разбросанного по всему документу)?

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий