Bazist

Рейтинг
43
Регистрация
15.01.2014
dlyanachalas:
Я тоже читал теорию :) Но там совсем другие проценты сжатия. У вас - просто фантастика)

Ну чтобы понять что не фантастика, достаточно посмотреть какой-нибудь вырожденный случай из теории мат статистики. Допустим у вас есть ограниченный словарь, пусть будет на 100 тысяч слов и оооочень большой документ, допустим на 100 мегабайт. Документ состоит только из слов в словаре. У вас задача, построить индекс, по которому нужно будет просто определить есть какое либо слово в этом документе или нет. И очевидно, что каким бы не был размер самого документа, 100 мб, 1000мб или больше, размер индекса будет всеголишь 100 тыс * 8 букв среднее слово + неболшие издержки на формат. Тоесть чисто теоретически, индекс может занимать и 0.01% от первоначального обьема текста.

На данный момент в моем индексе свыше 14 млн слов и словоформ и он действительно занимает меньше 1% от первоначального размера проиндексированого контента. Но даже при этом, потенциал сжатия еще большой, обычный RAR его свободно дожимает еще в два раза. Где предел сжатия, я даже затрудняюсь сказать. Это интересная теоретическая задача.

dlyanachalas:
Любопытно, как вы добились такого результата? Обычно, инвертированный индекс можно сжать на проценты или в несколько раз. Но чтобы в 100 раз - это необычно и весьма интересно!

Такое сжатие, потому что индекс не хранит позиции слов, только названия документов. Для html документов, выбрасываются все теги. Само по себе выбрасывание тегов уже дает сжатие в 50-70%.

Вообще сжатие индекса очень полезная штука. Позволяет разместить как можно большие обьемы данных в ОЗУ, увеличить скорость поиска, упростить алгоритмы и свести к минимуму работу с диском.

Solmyr:
+1 за семантический поиск по википедии. Исключительно хорошая идея ИМХО.

Википедия задумывалась как кладезь структурированой информации.

Как по мне, проблемы поиска там нет, любую инфу можно искать и по вхождениям и по категориям и по похожим статьям.

---------- Добавлено 18.01.2014 в 22:14 ----------

MyBestFriend:
Если сделать упор в основном на ПФ 90

Что такое ПФ 90 ?

---------- Добавлено 18.01.2014 в 22:18 ----------

avgar:
Нишевый поиск по товарам, чтобы не по маркету искать и топам. А по всем торг.точкам результаты выдавались, с авито и прочими. Только на продажах и прибыли это плохо скажется. Зато покупатели довольны будут. Ну и подобно Островам, чтобы не отставать от Я.

Думал про это, но натолкнулся на сайт, например prom.ua.

Сама по себе идея интересная, особенно фасетного поиска, поиск товаров по большому количеству разных параметров. Множество вебмагазинов достаточно уныло выглядят в плане поиска, часто поиск только по категории товара. Но пока задача трудно реализуемая, посколько прийдется писать море парсеров.

---------- Добавлено 18.01.2014 в 22:19 ----------

PS: Проиндексирован еще один форум

http://www.skoda-club.org.ua/forum/

Общее количестве html страниц - 214 571

Общий обьем данных - 12 гб

Результирующий индекс - 75мб

Спасибо за ответы.

Все правильно, меня сейчас больше интересует "правильное" расширение функциональности.

Просто занять нишу гугла или яндекса, такой цели не ставится, эти поисковики на мой взгляд написаны хорошо и улучшить с точки зрения пользователя врядли чтото удасться (Хотя может у Вас другие мысли ?).

В качестве пилотной идеи меня больше сейчас интересует реализация семантического поиска, или поиска по словарям. Гугление ничего конкретного пока не дало, но с практической точки зрения, наверняка работы в этой области ведутся.

Bazist:

Из фич для просто инвертированого индекса, пришла например такая идея.
Поиск по словарям. Пользователь задает словарь, вес каждого слова в словаре и отискивает все документы, где встречается наибольшее количество слов из словаря. В идеале такой поиск должен отискивать на запросы "ругают ФК Спартак" все страницы где болельщики ругают Спартак (ругают в запросе это не точное вхождение, а словарь слов).
Такое гдето уже реализовано ? Стоит ли за это браться ?
Всего: 144