крамольный вопрос про "инвертированные файлы"

!Иван FXS · 2004-12-18T22:10:59.0000000Z

В самом ли деле нет альтернативы "инвертированным файлам" как способу организации индекса для SE? Или - другими словами - нет ли каких-то специфических "поисковых потребностей" для обслуживания которых "инвертированные файлы" вовсе не являются бесспорным лидером? И - все ли SE используют "инвертированные файлы" в качестве индексов?

119

!Иван FXS

20 декабря 2004, 15:15

#21

euhenio, - честно, - не понял: если (позицию слова в блоке) мы не храним (храним: (№ документа, № блока в документе)), - то как мы сможем ее "испрользовать при более хитрых запросах с участием расстояний"?

357

euhenio

20 декабря 2004, 15:57

#22

Тьфу, блин, блоки относились не к обратному индексу, а восстановлению текста... :) А я-то думал...

!Иван FXS, ну, если в отдельном индексе их (позиции) хранить. Тут ведь от задачи исходим - если тебе, например, требуется быстрый поиск документов, содержащих слова - то позиции слов хранить вообще не обязательно. Если ты по умолчанию ищешь в пределах предложения - можно хранить номер предложения.

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

20 декабря 2004, 16:09

#23

А разве рационально - с точки зрения ресурсов - хранить несколько индексов (один - для "быстрого поиска", другой - для "подробного")?

Неужели кто-то так делает??

30

lagif

21 декабря 2004, 09:28

#24

После пары дней рассуждений и пары бутылок пива я все-таки думаю, что прямой индекс следует хранить в любом случае. С ним легче производить переиндексацию (потому что все рано или поздно приходится переиндексировать) в инвертированный индекс.

Это тоже пройдет...

119

!Иван FXS

21 декабря 2004, 10:02

#25

Что такое "прямой индекс", сорри?

Это - если словарь:

101 мама

...

245 мыла

...

896 раму

и каталог документов:

...

19876 "про маму"

...

- то прямой индекс:

19876 1 101

...

19876 2 245

...

19876 3 896

Так?

30

lagif

21 декабря 2004, 10:31

#26

!Иван FXS,

Выражу свое понимание.

Прямой индекс - это индексация по ключу. Как в любой БД. "инвертированный", если я могу тут правильно выразиться - это просто список, сгенерированный из прямого. Обычно это какой-то типизированный файл (ну, или кучка файлов :) ), а что в том файле записано - уже волеизъявление программера (не обязательно ведь то, что было записано в прямом индексе, что-то добавляетcя, видоизменяется и т. д.). По понятным причинам, работать с таким файлом - гораздо быстрее, чем с выборками из таблиц.

Посмотрите примерно тут (не знаю, давали ли уже эту ссылку):

http://old.company.yandex.ru/articles/article10.html

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Курс биткоина превысил $50 тысяч

Зачем быть уникальным в мире, где все можно скопировать