Ну чтобы понять что не фантастика, достаточно посмотреть какой-нибудь вырожденный случай из теории мат статистики. Допустим у вас есть ограниченный словарь, пусть будет на 100 тысяч слов и оооочень большой документ, допустим на 100 мегабайт. Документ состоит только из слов в словаре. У вас задача, построить индекс, по которому нужно будет просто определить есть какое либо слово в этом документе или нет. И очевидно, что каким бы не был размер самого документа, 100 мб, 1000мб или больше, размер индекса будет всеголишь 100 тыс * 8 букв среднее слово + неболшие издержки на формат. Тоесть чисто теоретически, индекс может занимать и 0.01% от первоначального обьема текста.
На данный момент в моем индексе свыше 14 млн слов и словоформ и он действительно занимает меньше 1% от первоначального размера проиндексированого контента. Но даже при этом, потенциал сжатия еще большой, обычный RAR его свободно дожимает еще в два раза. Где предел сжатия, я даже затрудняюсь сказать. Это интересная теоретическая задача.
Такое сжатие, потому что индекс не хранит позиции слов, только названия документов. Для html документов, выбрасываются все теги. Само по себе выбрасывание тегов уже дает сжатие в 50-70%.
Вообще сжатие индекса очень полезная штука. Позволяет разместить как можно большие обьемы данных в ОЗУ, увеличить скорость поиска, упростить алгоритмы и свести к минимуму работу с диском.
Википедия задумывалась как кладезь структурированой информации.
Как по мне, проблемы поиска там нет, любую инфу можно искать и по вхождениям и по категориям и по похожим статьям.---------- Добавлено 18.01.2014 в 22:14 ----------
Что такое ПФ 90 ?---------- Добавлено 18.01.2014 в 22:18 ----------
Думал про это, но натолкнулся на сайт, например prom.ua.
Сама по себе идея интересная, особенно фасетного поиска, поиск товаров по большому количеству разных параметров. Множество вебмагазинов достаточно уныло выглядят в плане поиска, часто поиск только по категории товара. Но пока задача трудно реализуемая, посколько прийдется писать море парсеров.---------- Добавлено 18.01.2014 в 22:19 ----------PS: Проиндексирован еще один форум
http://www.skoda-club.org.ua/forum/
Общее количестве html страниц - 214 571
Общий обьем данных - 12 гб
Результирующий индекс - 75мб
Спасибо за ответы.
Все правильно, меня сейчас больше интересует "правильное" расширение функциональности.
Просто занять нишу гугла или яндекса, такой цели не ставится, эти поисковики на мой взгляд написаны хорошо и улучшить с точки зрения пользователя врядли чтото удасться (Хотя может у Вас другие мысли ?).
В качестве пилотной идеи меня больше сейчас интересует реализация семантического поиска, или поиска по словарям. Гугление ничего конкретного пока не дало, но с практической точки зрения, наверняка работы в этой области ведутся.