У всех поисковиков есть разбиение по блокам текста для хранения координат слов - Поисковые технологии

крамольный вопрос про "инвертированные файлы"

!Иван FXS · 2004-12-18T22:10:59.0000000Z

В самом ли деле нет альтернативы "инвертированным файлам" как способу организации индекса для SE? Или - другими словами - нет ли каких-то специфических "поисковых потребностей" для обслуживания которых "инвертированные файлы" вовсе не являются бесспорным лидером? И - все ли SE используют "инвертированные файлы" в качестве индексов?

357

euhenio

20 декабря 2004, 11:44

#11

Vyacheslav Tikhonov,

Контент хранится блоками, координаты адресуют позиции слов в каждом блоке.

-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?

с ув., Евгений Трофименко seo блог Trofimenko.ru ( http://trofimenko.ru/ ) но ыыы мало обновляется... Tools.Promosite.ru - анализатор апдейтов Яндекса (пожертвуйте лимиты на Яндекс.XML! ( https://searchengines.guru/ru/forum/801888/page7#comment_11942489 )) Konvr.ru - увеличение конверсии сайта на 81% за 4 недели ( http://konvr.ru/ )

VT

130

Vyacheslav Tikhonov

20 декабря 2004, 12:20

#12

-а можно поподробнее, откуда информация? Какие именно блоки - по коду, по размеру текста, по чему-то еще? И откуда следует необходимость хранения именно в блоках, а не задание координаты от начала текста документа?

euhenio, структуры данных для хранения координат и блоки для цитирования определяют сами разработчики, и естественно, что у каждого поисковика они свои собственные.

Подробнее поспрашивайте их сами.

357

euhenio

20 декабря 2004, 12:31

#13

Vyacheslav Tikhonov, я вот про что. У всех поисковиков (Я, Р, например) есть разбиение по блокам текста для хранения координат слов только внутри блока? Или это только у разработанных тобой поисковиков?

Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.

Вот я и хочу выяснить, у всех такие блоки есть или только у тебя. :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

20 декабря 2004, 12:45

#14

Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!

357

euhenio

20 декабря 2004, 13:04

#15

!Иван FXS, все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.

E

17

eshum

20 декабря 2004, 13:36

#16

Как писал !Иван FXS
Какие "блоки", если многие поисковики позволяют ТОЧНО указывать в запросе расстояние между "запрашиваемыми" словами!

В некоторых можно указать расстояние между словами внутри блока. А блоками могут считаться фразы разделеные точками или HTML тегами или чем то еще по усмотрению разработчика. Для того чтобы дать возможность искать несколько слов "в одном предложении" или "точную фразу целиком", прийдется сохранять контент блоками.

Отсюда вывод: если поисковик позволяет искать внутри предложения - он использует блочное хранение контента.

Google может обрабатывать антонимы Директ вносит изменения в Обновился таргетинг по ключевым

VT

130

Vyacheslav Tikhonov

20 декабря 2004, 13:47

#17

Впечатление такое, что ты "за всех" сказал. Если так, то такое хранение должно давать некую экономию в месте без особой потери качества определения расстояний. И это разбиение должно диктоваться какой-то неоюходимостью.

Сказал за себя и за Коваленко. Насколько я помню, у него цитатник тоже строится поблочно. Впрочем, лучше спросить у него самого, как там сделано в новой версии поиска.

119

!Иван FXS

20 декабря 2004, 13:51

#18

Как писал euhenio
все-таки в некоторых пределах. У Рамблера, кажется, не более 40 слов.

- вряд ли это подтверждает "гипотезу блочности" ...

Кстати, хранить координаты слова в формате:

(№ документа, № блока в документе, позиция слова в блоке)

- разве это более эффективно, чем хранить их в формате:

(№ документа, позиция слова в документе)

???

357

euhenio

20 декабря 2004, 14:47

#19

Vyacheslav Tikhonov,

Насколько я помню, у него цитатник тоже строится поблочно.

-я запутался. Цитатник - это у тебя обратный индекс или прямой? :) Вроде, изначально речь шла про обратный.

!Иван FXS,

Кстати, хранить координаты слова в формате:
(№ документа, № блока в документе, позиция слова в блоке)

-ну, можно хранить их в виде (№ документа, № блока в документе) и "в облегченном виде" вычислять близость слов - по совпадению № блоков, а (позицию слова в блоке) испрользовать при более хитрых запросах с участием расстояний... Вопрос в длине блока...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

20 декабря 2004, 14:56

#20

Цитатник - это у тебя обратный индекс или прямой?

Прямой, конечно.

Вроде, изначально речь шла про обратный.

Ну так ранжировать нужно по каким-то данным, прежде чем поднимать цитаты по прямому индексу.

Что такое Power BI и зачем это нужно бизнесу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

крамольный вопрос про "инвертированные файлы"