- А про "найден по ссылке" вы что-нибудь слышали? И в топах тоже встречается :)
- Плотность 8% (отвлекаясь от тошноты) это не так что бы жутко много
- ссылки, действительно могут много :)
- при увеличении "тошноты" может расти плотность ключей и будет все равно в плюс.
Кот, там стояло ИМХО :)
euhenio, появился момент, который меня смущает в запросонезависимом пассаже :)
При контекстном ограничении "документ" и пассажах условно равных предложению, как пассажи проходят кворум, если допустим, запрос из 5 слов и каждое слово содержится в своем пассаже (предложении)?
Отключается что ли в этом случае механизм кворума...
Ладно буду думать еще, пока у меня запал кончился на отстаивание запросонезависимого пассажа :)
Пассажи - это части текста, разделяющие документ для эффективной работы ранжирующего алгоритма.
Каждый разработчик, видимо, реализует свой вариант пассажа.
Что такое пассаж в Яндексе я точно не знаю. ИМХО - это предложение, длинные предложения (более 64 слов) усекаются. Короткие (сколько слов не знаю) объединяются.
Вот тут книжечка про пассажи, правда на англицком.
http://goanna.cs.rmit.edu.au/~jz/fulltext/acmtois99.pdf
Зато, на нее ссылается в списке литературы "Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования"
Если под пассажем понимать запросозависимый вариант и считать, что пассаж - это часть текста в рамках которой слова из запроса мы считаем в одном контексте, то ИМХО, алгоритмы работающие на пассаж как одно предложение (распределяющие вес, кворум и т.д.) вряд ли хорошо в пишутся в случае, когда контекстное ограничение - это документ и пассаж - это документ.
ИМХО, пассаж был введен в IR (использован в Яндексе) с целью установления связи между словами. Т.е. слова находятся в одном пассаже, значит больше вероятности, что они связаны друг с другом, т.е. имеют общий контекст.
Например, запрос "железная дорога"
Текст:
"
Железный Феликс в качестве наркома путей сообщения прочел это письмо, затем в качестве председателя ГПУ навел справки и выяснил, что гострест «Эмбанефть» помимо промыслов Доссор и Макат включает в себя два нефтеперерабатывающих завода: Константиновский под Ярославлем и Варинский в Сормове (Нижний Новгород).
......
Если ГПУ даст рабочую силу до 2.000 человек, а НКПС — материал и подвижной состав с линии Владимир — Рязань, то в 1,5 года может быть построена железная дорога.
..............
А принимая во внимание фрахт за счет НКПС, то локомотивы будут дороги.
Разбиение текста на пассажи дает нам в данном примере, понимание, что "Железный Феликс" и "локомотивы будут дороги" не относятся по контексту друг к другу и эти пассажи можно принять не релевантными запросу. Это не снимает всех проблем (омонимии, например) и работает правильно не в 100% случаев, но вероятность хорошего ранжирования увеличивается.
Пассаж - это не предложение, а некая часть текста. В каждой реализации алгоритма, видимо, выбирают свое определение для этой части.
В для пользователей в Яндексе пассаж назван предложением для упрощения понимания и видимо потому, что в большей части случаев это и есть предложение.
wolf,
2.2 Passage Retrieval
Language modeling is a new framework for IR, and to learn
more about this framework it is important to study how wellknown
IR techniques can be implemented, and whether there are
differences in performance from what has previously been
observed. Passage retrieval techniques have been extensively used
in standard IR settings, and have proven effective for document
retrieval when documents are long or when there are topic
changes within a document, thus making it an appealing candidate
for the present work. Second, from an IR system user’s
standpoint, it may be more desirable that the relevant section of a
document is presented to the user than the entire document.
Passages can be defined based on the document structure [4, 7, 17]. This entails using author-provided marking (e.g. period,
indentation, empty line, etc.) as passage boundaries. Examples of
such passages include paragraphs, sections, or sentences.
Passages can also be defined according to subject or content of
the text. The main idea is to divide documents into coherent units
with each unit corresponding to a subtopic. A well-known
algorithm for deriving such passages is TextTiling [6, 7]. Other
algorithms have been reported in [17, 14, 18]. The third type of
passage is window, which consists of a fixed number of words or
bytes. Passages in this category may or may not take logical
structure of the document into account. Overlapped windows as
used in [4] and non-overlapped windows as used in [9] do not
depend on text, whereas pages in [22] and bounded paragraphs in
[4] make use of paragraph boundary information and restrict
windows to some minimum length. A more dynamic alternative to
windows is arbitrary passages proposed by [8, 9]. The word
“arbitrary” means that a passage can start at any word in the
document. Two subclasses are further defined. Fixed-length
arbitrary passages resemble overlapped windows but with an
arbitrary starting point. Variable-length arbitrary passages can be
of any length. Unlike structural, topical, and window passages
which are typically predefined (defined before or at indexing
time), arbitrary passages are defined at query time. A survey of
passages can be found in [9].
Miha Kuzmin (KMY), wolf, euhenio, дайте пожалуйста, хоть один аргумент (или ссылку на пост) в пользу запросозависимого пассажа.
Аргумент в пользу запросонезависимого пассажа - в нем нет необходимости, а это дополнительная нагрузка в момент запроса.
euhenio, к дорам никакого отношения не имею :)
У Ваших сайтов может быть.
в данном случае, это синонимы.