крамольный вопрос про "инвертированные файлы"

123
euhenio
На сайте с 21.09.2001
Offline
357
#11

Vyacheslav Tikhonov,

Контент хранится блоками, координаты адресуют позиции слов в каждом блоке.

-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )
VT
На сайте с 27.01.2001
Offline
130
#12
-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?

euhenio, структуры данных для хранения координат и блоки для цитирования определяют сами разработчики, и естественно, что у каждого поисковика они свои собственные.

Подробнее поспрашивайте их сами.

euhenio
На сайте с 21.09.2001
Offline
357
#13

Vyacheslav Tikhonov, я вот про что. У всех поисковиков (Я, Р, например) есть разбиение по блокам текста для хранения координат слов только внутри блока? Или это только у разработанных тобой поисковиков?

Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.

Вот я и хочу выяснить, у всех такие блоки есть или только у тебя. :)

!Иван FXS
На сайте с 16.11.2001
Offline
119
#14

Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!

euhenio
На сайте с 21.09.2001
Offline
357
#15

!Иван FXS, все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.

E
На сайте с 12.01.2004
Offline
17
#16
Как писал !Иван FXS
Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!

В некоторых можно указать расстояние между словами внутри блока. А блоками могут считаться фразы разделеные точками или HTML тегами или чем то еще по усмотрению разработчика. Для того чтобы дать возможность искать несколько слов "в одном предложении" или "точную фразу целиком", прийдется сохранять контент блоками.

Отсюда вывод: если поисковик позволяет искать внутри предложения - он использует блочное хранение контента.

VT
На сайте с 27.01.2001
Offline
130
#17
Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.

Сказал за себя и за Коваленко. Насколько я помню, у него цитатник тоже строится поблочно. Впрочем, лучше спросить у него самого, как там сделано в новой версии поиска.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#18
Как писал euhenio
все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.

- вряд ли это подтверждает "гипотезу блочности" ...

Кстати, хранить координаты слова в формате:

(№ документа, № блока в документе, позиция слова в блоке)

- разве это более эффективно, чем хранить их в формате:

(№ документа, позиция слова в документе)

???

euhenio
На сайте с 21.09.2001
Offline
357
#19

Vyacheslav Tikhonov,

Насколько я помню, у него цитатник тоже строится поблочно.

-я запутался. Цитатник - это у тебя обратный индекс или прямой? :) Вроде, изначально речь шла про обратный.

!Иван FXS,

Кстати, хранить координаты слова в формате:
(№ документа, № блока в документе, позиция слова в блоке)

-ну, можно хранить их в виде (№ документа, № блока в документе) и "в облегченном виде" вычислять близость слов - по совпадению № блоков, а (позицию слова в блоке) испрользовать при более хитрых запросах с участием расстояний... Вопрос в длине блока...

VT
На сайте с 27.01.2001
Offline
130
#20
Цитатник - это у тебя обратный индекс или прямой?

Прямой, конечно.

Вроде, изначально речь шла про обратный.

Ну так ранжировать нужно по каким-то данным, прежде чем поднимать цитаты по прямому индексу.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий