john2007

john2007
Рейтинг
173
Регистрация
26.03.2007

- А про "найден по ссылке" вы что-нибудь слышали? И в топах тоже встречается :)

- Плотность 8% (отвлекаясь от тошноты) это не так что бы жутко много

- ссылки, действительно могут много :)

- при увеличении "тошноты" может расти плотность ключей и будет все равно в плюс.

Кот, там стояло ИМХО :)

euhenio, появился момент, который меня смущает в запросонезависимом пассаже :)

При контекстном ограничении "документ" и пассажах условно равных предложению, как пассажи проходят кворум, если допустим, запрос из 5 слов и каждое слово содержится в своем пассаже (предложении)?

Отключается что ли в этом случае механизм кворума...

Ладно буду думать еще, пока у меня запал кончился на отстаивание запросонезависимого пассажа :)

euhenio:
john2007, дайте свое определение пассажа.

Пассажи - это части текста, разделяющие документ для эффективной работы ранжирующего алгоритма.

Каждый разработчик, видимо, реализует свой вариант пассажа.

Что такое пассаж в Яндексе я точно не знаю. ИМХО - это предложение, длинные предложения (более 64 слов) усекаются. Короткие (сколько слов не знаю) объединяются.

Вот тут книжечка про пассажи, правда на англицком.

http://goanna.cs.rmit.edu.au/~jz/fulltext/acmtois99.pdf

Зато, на нее ссылается в списке литературы "Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования"

Если под пассажем понимать запросозависимый вариант и считать, что пассаж - это часть текста в рамках которой слова из запроса мы считаем в одном контексте, то ИМХО, алгоритмы работающие на пассаж как одно предложение (распределяющие вес, кворум и т.д.) вряд ли хорошо в пишутся в случае, когда контекстное ограничение - это документ и пассаж - это документ.

ИМХО, пассаж был введен в IR (использован в Яндексе) с целью установления связи между словами. Т.е. слова находятся в одном пассаже, значит больше вероятности, что они связаны друг с другом, т.е. имеют общий контекст.

Например, запрос "железная дорога"

Текст:

"

Железный Феликс в качестве наркома путей сообщения прочел это письмо, затем в качестве председателя ГПУ навел справки и выяснил, что гострест «Эмбанефть» помимо промыслов Доссор и Макат включает в себя два нефтеперерабатывающих завода: Константиновский под Ярославлем и Варинский в Сормове (Нижний Новгород).

......

Если ГПУ даст рабочую силу до 2.000 человек, а НКПС — материал и подвижной состав с линии Владимир — Рязань, то в 1,5 года может быть построена железная дорога.

..............

А принимая во внимание фрахт за счет НКПС, то локомотивы будут дороги.

"

Разбиение текста на пассажи дает нам в данном примере, понимание, что "Железный Феликс" и "локомотивы будут дороги" не относятся по контексту друг к другу и эти пассажи можно принять не релевантными запросу. Это не снимает всех проблем (омонимии, например) и работает правильно не в 100% случаев, но вероятность хорошего ранжирования увеличивается.

Пассаж - это не предложение, а некая часть текста. В каждой реализации алгоритма, видимо, выбирают свое определение для этой части.

В для пользователей в Яндексе пассаж назван предложением для упрощения понимания и видимо потому, что в большей части случаев это и есть предложение.

wolf,

2.2 Passage Retrieval

Language modeling is a new framework for IR, and to learn

more about this framework it is important to study how wellknown

IR techniques can be implemented, and whether there are

differences in performance from what has previously been

observed. Passage retrieval techniques have been extensively used

in standard IR settings, and have proven effective for document

retrieval when documents are long or when there are topic

changes within a document, thus making it an appealing candidate

for the present work. Second, from an IR system user’s

standpoint, it may be more desirable that the relevant section of a

document is presented to the user than the entire document.

Passages can be defined based on the document structure [4, 7, 17]. This entails using author-provided marking (e.g. period,

indentation, empty line, etc.) as passage boundaries. Examples of

such passages include paragraphs, sections, or sentences.

Passages can also be defined according to subject or content of

the text. The main idea is to divide documents into coherent units

with each unit corresponding to a subtopic. A well-known

algorithm for deriving such passages is TextTiling [6, 7]. Other

algorithms have been reported in [17, 14, 18]. The third type of

passage is window, which consists of a fixed number of words or

bytes. Passages in this category may or may not take logical

structure of the document into account. Overlapped windows as

used in [4] and non-overlapped windows as used in [9] do not

depend on text, whereas pages in [22] and bounded paragraphs in

[4] make use of paragraph boundary information and restrict

windows to some minimum length. A more dynamic alternative to

windows is arbitrary passages proposed by [8, 9]. The word

“arbitrary” means that a passage can start at any word in the

document. Two subclasses are further defined. Fixed-length

arbitrary passages resemble overlapped windows but with an

arbitrary starting point. Variable-length arbitrary passages can be

of any length. Unlike structural, topical, and window passages

which are typically predefined (defined before or at indexing

time), arbitrary passages are defined at query time. A survey of

passages can be found in [9].

Miha Kuzmin (KMY), wolf, euhenio, дайте пожалуйста, хоть один аргумент (или ссылку на пост) в пользу запросозависимого пассажа.

Аргумент в пользу запросонезависимого пассажа - в нем нет необходимости, а это дополнительная нагрузка в момент запроса.

euhenio, к дорам никакого отношения не имею :)

НеВриМнеСкатина:
средный цтр по топ 10 в 5 раз меньше...

У Ваших сайтов может быть.

joost:
то значит, что склеины?

в данном случае, это синонимы.

Всего: 2535