Смотрите-ка, Cell думает, что Яндекс оценивает качество бизнеса сайтов 😂---------- Добавлено 19.01.2014 в 01:55 ----------
Каких - "других"? Кто такие, где живут?
Тут не в перевернутости дело) ;)
Допустим, вы намекаете, что некоторые слова встречаются только в 1-2 документах. Да! Это так. Но есть слова, которые встречаются почти во всех. Или 10%, допустим. Таких слов - тысячи, а возможно и десятки тысяч.
Так что даже если делать не полную матрицу, а именно списки, всё-равно много получается. Ну а в несжатом виде - таки 560 Тб по канону будет :)
3 байта и 4 байта :) Индексы же должны как-то храниться. В виде чисел, как я предполагаю?)
Ок, я считал в другой плоскости, теперь понятно, как у вас. Теоретически, получается 14 млн слов * 10 млн страниц * 4 (байт) = 560 Тб несжатого индекса :)
Конечно, так в лоб, он очень сильно разреженный получится, однако, сжать в 100000 раз всё-таки врядли получится.
320 гб, допустим, 10 миллионов страниц.
Тогда инвертированный индекс будет равен примерно: 10 млн * 3 (размер индекса по документам) * 4 (размер индекса по словам) * 1000 (среднее количество слов в документе) = 120Гб.
У вас - 4Гб. Какие методики для этого используются?
(Сжатие всё-таки считается не от объема текста, а от объема несжатого индекса. Но у вас всё-равно, очень большой % сжатия).
Я тоже читал теорию :) Но там совсем другие проценты сжатия. У вас - просто фантастика)
Любопытно, как вы добились такого результата? Обычно, инвертированный индекс можно сжать на проценты или в несколько раз. Но чтобы в 100 раз - это необычно и весьма интересно!
Немного похоже на http://news.yandex.ru/advanced.html
Делать - так уж по крупному. Если все ваши расчеты верны, то можно и Яндекс попячить ☝---------- Добавлено 18.01.2014 в 22:52 ----------
Не очень разумный совет, на мой взгляд. Эти данные и так есть, а Яндекс.Острова, сам Яндекс стесняется выкатывать, ибо бред. Да и чтобы они работали, сайты должны эти острова создавать, а пока их создало только полтора говносайта в сети.
Не бывает даже двух одинаковых сайтов. Где-то вам повезло, где-то нет. А причину вы сами назвали.
Возможно, так и есть! Но для оптимизаторов и владельцев площадок, тема интересная.
Тоже была такая мысль - сеть производит огромное количество расшифрованных sha256 блоков. Наверняка это чем-то полезно, зная что-то.
Скорее всего, конечно, это не какой-то "сатоши" биткойны придумал, а целая группа специалистов и не только по программированию.
Слишком уж гениально использован краудсорсинг.
Не приходило в голову, что это взаимосвязано? ;)
А как же продажа под видом золота слитков вольфрама, покрытых золотом? ;)---------- Добавлено 18.01.2014 в 12:54 ----------
Кто боится дефляции - бегом воскрешать Гайдара. Он вам покажет "дефляцию" 😂
Кстати, лайткойны лучше биткойнов по целому ряду показателей. Советую к ним тоже присмотреться))