Artisan

Artisan
Рейтинг
377
Регистрация
04.03.2005
Пишу программы для вычислительных машин, от драйверов устройств, до сложных систем для работы с большим количеством знаний. Умею бережно использовать железо, и другие ресурсы.
ЗодчийТеней:
сжатие на пзу я всеже использую

Что сжимается и какой алгоритм используется?

itman:
Неожиданно большой коэффициент сжатия получается.

Я уже писал что задача сжатия словаря

отличается от задачи сжатия текста, ...

itman:
цифра, как ни странно, получается похожая.

Почему как ни странно? Если количество информации

одинаковое то и сжимать можно до одинакового размера

с поправкой на особенности алгоритмов, ...

itman:
распакованный вид это все словоформы в однобайтовой кодировке. вот сейчас посмотрел 8.8 мегабайт. еще раз посчитал количество способов генерации словоформ в russian.aff (для испелл) 26 штук. Ну может не 300, но 400-500 возможно. Без экспериментов точно не скажешь.

Паковать надо совсем не так, ...

!Иван FXS:
по поводу кодирования n-грамами (буквеными).

Не все так просто, ...

itman:
Если вы уложили в 300кб набор слов, которые в распакованном виде занимают 4-8 Мб, то вы решили задачу более чем десятикратного сжатия. Вы согласны с этим утвеждением?

Я согласен с этим утверждением, ...

itman:
И все-таки, не сочтите за настойчивость нельзя ли огласить размер словаря по числу исходных форм.

Порядка 100 тысяч слов, точнее не считал,

но это были не исходные формы, скорее это

можно назвать уникальными словами, ...

Задача словаря с морфологией как это

обычно понимают практически такая же

с точностью до порядка 10 процентов, ...

ЗодчийТеней:
я прошу лишь обосновывать свои ответы

Я уже написал в каком порядке могут быть ответы,

прочитайте эту тему еще раз внимательно, ...

ЗодчийТеней:
яндекс говорит что он вложил свой словарь в объем в 300Кб, что позволило им полностью загружать его в ОЗУ, вопрос заключался в следующем, как они это сделали

Не знаю как это сделали они,

я сжимал словарь заранее и разжимал его при поиске, ...

ЗодчийТеней:
вы не дали вразумительного ответа

Если Вы будете хамить то ответа не будет, ...

ЗодчийТеней:
пожалуйста ваш алгоритм, если вы можете ваши слова
подтвердить на практике я уже готов купить его

Еще раз повторяю что Вы не очень внимательны, ...

ЗодчийТеней:
объясните мне глупому, почему вы так уперлись что один пользователь на одной машине? с каких пор данные с веба стали обрабатываться в операционке локальной машины? или вы думаете что поисковики ставят одельный сервер под каждый поисковый запрос?

Потому что сначала надо знать какая была задача и

уже потом приспособить решение для новых условий, ...

ЗодчийТеней:
поясните пожалуйста, на меня работает команда из 17! технологов микроэлектроники, веб это мое хобби которое я могу себе позволить, если вы готовы предложить действующую технологию предлагайте, покачьто это лиш ваши, пардон, словесныные утверждения

Похоже что Вы обойдетесь без этой технологии, ...

ЗодчийТеней:
да кстати, если вы вдруг не знали, интел делает ставку на гонку частот а не на конвейеризацию вычислительных процессов

Куда уже гнать? Намного быстрее физически невозможно, ...

А процессор Pentium от того что было до него

существенно отличается не конвейером который

был и раньше а параллельностью вычислений

в одном процессоре, ...

itman:
Потому как задача размещения словаря в памяти в сжатом виде в некотором роде эквивалентна задачи сжатия вообще.

Это совсем разные задачи, ...

itman:
А потом если размер словаря хотя бы сравним с испелловским, тогда было бы интересно узнать алгоритм.

Размер сравним, алгоритм бесплатно не раздается, ...

euhenio:
только про самые употребительные.
itman:
зализняковских 100-150 тысяч

300kb вполне достаточно, ...

ЗодчийТеней:
а теперь пробуем применить это все на поисковый сервер, а не на локального пользователя, пусть даже это крупный сервер с распределением запросов на разные машины, какие процессорные ресурсы вам понадобятся для обеспечения декомпрессии при каждом запросе?

Это было практически без задержек для пользователя

даже на ЕС-1841 с тактовой частотой 4.5 MHz а насколько

быстро получится на современных гигагерцах с Pentium

распараллеливанием при компиляции оптимизирующим

компилятором надо пробовать, ...

ЗодчийТеней:
как вы собираетесь найти соответствия поисковому запросу в словаре кроме как развернув его весь?

Разворачивать словарь можно по разному, ...

ЗодчийТеней:
речь не шла о локальных машинах, может конечьно я не так понял что именно сказано у яндекса, поэтому цитирую еще раз:
частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

Как я уже писал один пользователь на одной машине, ...

ЗодчийТеней:
выставляйте вашу модель на обсуждение либо покажите практичускую ее реализацию и мы обсудим ее стоимость. я готов легально купить технологию которая меня интересует, не вижу смысла прятаться в приват.

Похоже что Вы не очень внимательны, ...

Всего: 5936