Про разделители («.» «?» «!» «,») в анкоре ссылки.

john2007
На сайте с 26.03.2007
Offline
173
#261

ИМХО, пассаж был введен в IR (использован в Яндексе) с целью установления связи между словами. Т.е. слова находятся в одном пассаже, значит больше вероятности, что они связаны друг с другом, т.е. имеют общий контекст.

Например, запрос "железная дорога"

Текст:

"

Железный Феликс в качестве наркома путей сообщения прочел это письмо, затем в качестве председателя ГПУ навел справки и выяснил, что гострест «Эмбанефть» помимо промыслов Доссор и Макат включает в себя два нефтеперерабатывающих завода: Константиновский под Ярославлем и Варинский в Сормове (Нижний Новгород).

......

Если ГПУ даст рабочую силу до 2.000 человек, а НКПС — материал и подвижной состав с линии Владимир — Рязань, то в 1,5 года может быть построена железная дорога.

..............

А принимая во внимание фрахт за счет НКПС, то локомотивы будут дороги.

"

Разбиение текста на пассажи дает нам в данном примере, понимание, что "Железный Феликс" и "локомотивы будут дороги" не относятся по контексту друг к другу и эти пассажи можно принять не релевантными запросу. Это не снимает всех проблем (омонимии, например) и работает правильно не в 100% случаев, но вероятность хорошего ранжирования увеличивается.

Пассаж - это не предложение, а некая часть текста. В каждой реализации алгоритма, видимо, выбирают свое определение для этой части.

В для пользователей в Яндексе пассаж назван предложением для упрощения понимания и видимо потому, что в большей части случаев это и есть предложение.

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
john2007
На сайте с 26.03.2007
Offline
173
#262

Если под пассажем понимать запросозависимый вариант и считать, что пассаж - это часть текста в рамках которой слова из запроса мы считаем в одном контексте, то ИМХО, алгоритмы работающие на пассаж как одно предложение (распределяющие вес, кворум и т.д.) вряд ли хорошо в пишутся в случае, когда контекстное ограничение - это документ и пассаж - это документ.

euhenio
На сайте с 21.09.2001
Offline
357
#263

john2007, дайте свое определение пассажа.

john2007:
аргумент (или ссылку на пост) в пользу запросозависимого пассажа

-дайте хоть один аргумент в пользу жидкого пива :)

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
[Удален]
#264

euhenio, нет таких аргументов! Спиртное - зло!

john2007
На сайте с 26.03.2007
Offline
173
#265

Вот тут книжечка про пассажи, правда на англицком.

http://goanna.cs.rmit.edu.au/~jz/fulltext/acmtois99.pdf

Зато, на нее ссылается в списке литературы "Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования"

john2007
На сайте с 26.03.2007
Offline
173
#266
euhenio:
john2007, дайте свое определение пассажа.

Пассажи - это части текста, разделяющие документ для эффективной работы ранжирующего алгоритма.

Каждый разработчик, видимо, реализует свой вариант пассажа.

Что такое пассаж в Яндексе я точно не знаю. ИМХО - это предложение, длинные предложения (более 64 слов) усекаются. Короткие (сколько слов не знаю) объединяются.

euhenio
На сайте с 21.09.2001
Offline
357
#267
john2007:
Пассажи - это части текста, разделяющие документ для эффективной работы ранжирующего алгоритма.

-т.е. разбиения в документе.

По моему мнению, найденный пассаж - это найденный фрагмент в виде слов и расстояний между ними (расстояний в разных видах)

К
На сайте с 03.02.2005
Offline
74
#268
john2007:
Короткие (сколько слов не знаю) объединяются.

Сильно. Можно пример?

john2007
На сайте с 26.03.2007
Offline
173
#269

Кот, там стояло ИМХО :)

euhenio, появился момент, который меня смущает в запросонезависимом пассаже :)

При контекстном ограничении "документ" и пассажах условно равных предложению, как пассажи проходят кворум, если допустим, запрос из 5 слов и каждое слово содержится в своем пассаже (предложении)?

Отключается что ли в этом случае механизм кворума...

Ладно буду думать еще, пока у меня запал кончился на отстаивание запросонезависимого пассажа :)

К
На сайте с 03.02.2005
Offline
74
#270

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий