крамольный вопрос про "инвертированные файлы"

12 3
!Иван FXS
На сайте с 16.11.2001
Offline
119
3783

В самом ли деле нет альтернативы "инвертированным файлам" как способу организации индекса для SE?

Или - другими словами - нет ли каких-то специфических "поисковых потребностей" для обслуживания которых "инвертированные файлы" вовсе не являются бесспорным лидером?

И - все ли SE используют "инвертированные файлы" в качестве индексов?

!Иван FXS
На сайте с 16.11.2001
Offline
119
#1

Еще вопрос.

Вообще говоря, имея в своем распоряжении инвертированный файл, - можно ВОССТАНОВИТЬ исходный файл ... (правда, наверное, в нем будут потеряны мелкие детали, - типа заглавных букв!)

Однако, - правильно ли я понимаю, - что SE так не делают, но - хранят "у себя" наряду с инвертированными файлами также весь проиндексированный контент в виде "обычных" (не-инвертированных) файлов?

VT
На сайте с 27.01.2001
Offline
130
#2
В самом ли деле нет альтернативы "инвертированным файлам" как способу организации индекса для SE?

Нет, широко используются и сигнатурные файлы, в которых применяются так называемые n-граммы, которые затем каким-то образом хешируются и формируют сигнатуру слов.

Более подробно можно почитать здесь.

И - все ли SE используют "инвертированные файлы" в качестве индексов?

Вот и спросите у разработчиков. ;) Насколько я знаю, большинство поисковиков используют.

Вообще говоря, имея в своем распоряжении инвертированный файл, - можно ВОССТАНОВИТЬ исходный файл ... (правда, наверное, в нем будут потеряны мелкие детали, - типа заглавных букв!)

По инвертированному файлу можно получить только некие координаты каждого слова в текста, сам по себе восстанавливать он ничего не позволяет.

но - хранят "у себя" наряду с инвертированными файлами также весь проиндексированный контент в виде "обычных" (не-инвертированных) файлов?

Контент, из которого получаются сниппеты с подсвеченными ключевыми словами, обычно хранится в специальном хранилище, которое и адресуется координатами из инвертированных файлов.

greenwood
На сайте с 08.09.2003
Offline
519
#3
По инвертированному файлу можно получить только некие координаты

тихо..шопотом ... а что такое инвертированные файлы ?

VT
На сайте с 27.01.2001
Offline
130
#4
тихо..шопотом ... а что такое инвертированные файлы ?

Справочная

greenwood
На сайте с 08.09.2003
Offline
519
#5
Справочная

еще тише .... прочитал ... а как это с оптимизацией вяжется ?

!Иван FXS
На сайте с 16.11.2001
Offline
119
#6

"C оптимизацией вяжется" посредством SE.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#7
Как писал Vyacheslav Tikhonov
... сигнатурные файлы, в которых применяются так называемые n-граммы, которые затем каким-то образом хешируются и формируют сигнатуру слов.
Более подробно можно почитать здесь.

- а по-русски ничего не поркомендуете ... про "сигнатурные файлы"?

И потом, инвертированный файл - он ведь индексирует не СЛОВАРЬ, а КОНТЕНТ ... а то, что Вы наприсали про "сигнатурные файлы", - относится, вроде как, к СЛОВАРЮ, а не к КОНТЕНТУ!

По инвертированному файлу можно получить только некие координаты каждого слова в текста, сам по себе восстанавливать он ничего не позволяет.

- что значит "некие"? Координаты они и есть координаты ... А если "расставить" слова в соответсвии с указанными координатами, - разве не "востановится" исходный контент???

VT
На сайте с 27.01.2001
Offline
130
#8
еще тише .... прочитал ... а как это с оптимизацией вяжется ?

greenwood, хорош флеймить. С оптимизацией это никак не вяжется, раздел так и называется - "Поисковые технологии".

VT
На сайте с 27.01.2001
Offline
130
#9
И потом, инвертированный файл - он ведь индексирует не СЛОВАРЬ, а КОНТЕНТ ... а то, что Вы наприсали про "сигнатурные файлы", - относится, вроде как, к СЛОВАРЮ, а не к КОНТЕНТУ!

К инвертированному файлу всегда идет словарь. Лексикон называется.

что значит "некие"? Координаты они и есть координаты ...

Координаты могут быть разными. В индексе могут храниться, как только номера документов, так и позиции слов в тексте, так и смещения позиций друг от друга.


А если "расставить" слова в соответсвии с указанными координатами, - разве не "востановится" исходный контент???

Нет. Контент хранится блоками, координаты адресуют позиции слов в каждом блоке.

VT
На сайте с 27.01.2001
Offline
130
#10
- а по-русски ничего не поркомендуете ... про "сигнатурные файлы"?

К сожалению, ничего. Такие вещи предпочитаю читать в оригинале. :)

И Вам советую.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий