Судя по всему так работал Рамблер предыдущей версии и .Turtle
На русском практически ничего и нет, а вот на английском полно - http://www.google.com/search?q=Information+Retrieval+Course
http://www.aot.ru/ ?
Согласен, если требуется бысто обновить произвольный документ, лучше хранить постлист кусочками. Правда есть спорные моменты: что делать если после обновления блок становится больше по размеру, переносить данные в новый? Или как быть с фрагментацией таких блоков которая возникнет после некоторого количества обновлений? Если таких блоков будет много в постлисте и они не будут располагаться подряд, упадет производительность поиска т.к. подвод головки винчестера к началу блока (diskseek) не самая быстрая опрерация.
Что касается глобального инвертированного индекса (когда инфомация о документе находится в разных индексных файлах), обновления еще более затруднительны если эти файлы находятся на разных машинах.
Основной недостаток этих методов (глобальный инвертированный индекс) - стоимость перестройки индекса. При изменении одного документа прийдется перестраивать все индексные файлы в которых содержаться слова из этого документа.
Иногда может быть и наоборот - чем больше слов в запросе, тем короче список результатов поиска, а значит и меньше времени потребуется на ранжирование. При большом количестве слов в запросе производительность, как мне кажется, будет больше "упираться" на объединение списков документов соответствующих каждому слову запроса. Подробне про объединение упорядоченных последовательностях можно посмотреть: Интерполяционный поиск, Hwang-Lin merging, binary merging algorithm
В некоторых можно указать расстояние между словами внутри блока. А блоками могут считаться фразы разделеные точками или HTML тегами или чем то еще по усмотрению разработчика. Для того чтобы дать возможность искать несколько слов "в одном предложении" или "точную фразу целиком", прийдется сохранять контент блоками.
Отсюда вывод: если поисковик позволяет искать внутри предложения - он использует блочное хранение контента.
Могу предложить рекламу на wap.gala.net
Посещаемость около 150 000 хитов в сутки, аудитория сайта русскоязычная в основном Россия, Украина, зарубеж.
Прайс можно посмотреть здесь