крамольный вопрос про "инвертированные файлы"

1 23
!Иван FXS
На сайте с 16.11.2001
Offline
119
#21

euhenio, - честно, - не понял: если (позицию слова в блоке) мы не храним (храним: (№ документа, № блока в документе)), - то как мы сможем ее "испрользовать при более хитрых запросах с участием расстояний"?

euhenio
На сайте с 21.09.2001
Offline
357
#22

Тьфу, блин, блоки относились не к обратному индексу, а восстановлению текста... :) А я-то думал...

!Иван FXS, ну, если в отдельном индексе их (позиции) хранить. Тут ведь от задачи исходим - если тебе, например, требуется быстрый поиск документов, содержащих слова - то позиции слов хранить вообще не обязательно. Если ты по умолчанию ищешь в пределах предложения - можно хранить номер предложения.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
!Иван FXS
На сайте с 16.11.2001
Offline
119
#23

А разве рационально - с точки зрения ресурсов - хранить несколько индексов (один - для "быстрого поиска", другой - для "подробного")?

Неужели кто-то так делает??

lagif
На сайте с 15.12.2004
Offline
30
#24

После пары дней рассуждений и пары бутылок пива я все-таки думаю, что прямой индекс следует хранить в любом случае. С ним легче производить переиндексацию (потому что все рано или поздно приходится переиндексировать) в инвертированный индекс.

Это тоже пройдет...
!Иван FXS
На сайте с 16.11.2001
Offline
119
#25

Что такое "прямой индекс", сорри?

Это - если словарь:

101 мама

...

245 мыла

...

896 раму

и каталог документов:

...

19876 "про маму"

...

- то прямой индекс:

19876 1 101

...

19876 2 245

...

19876 3 896

Так?

lagif
На сайте с 15.12.2004
Offline
30
#26

!Иван FXS,

Выражу свое понимание.

Прямой индекс - это индексация по ключу. Как в любой БД. "инвертированный", если я могу тут правильно выразиться - это просто список, сгенерированный из прямого. Обычно это какой-то типизированный файл (ну, или кучка файлов :) ), а что в том файле записано - уже волеизъявление программера (не обязательно ведь то, что было записано в прямом индексе, что-то добавляетcя, видоизменяется и т. д.). По понятным причинам, работать с таким файлом - гораздо быстрее, чем с выборками из таблиц.

Посмотрите примерно тут (не знаю, давали ли уже эту ссылку):

http://old.company.yandex.ru/articles/article10.html

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий