Artisan

Artisan
Рейтинг
381
Регистрация
04.03.2005
Пишу программы для вычислительных машин, от драйверов устройств, до сложных систем для работы с большим количеством знаний. Умею бережно использовать железо, и другие ресурсы.
!Иван FXS:
по поводу кодирования n-грамами (буквеными).

Не все так просто, ...

itman:
Если вы уложили в 300кб набор слов, которые в распакованном виде занимают 4-8 Мб, то вы решили задачу более чем десятикратного сжатия. Вы согласны с этим утвеждением?

Я согласен с этим утверждением, ...

itman:
И все-таки, не сочтите за настойчивость нельзя ли огласить размер словаря по числу исходных форм.

Порядка 100 тысяч слов, точнее не считал,

но это были не исходные формы, скорее это

можно назвать уникальными словами, ...

Задача словаря с морфологией как это

обычно понимают практически такая же

с точностью до порядка 10 процентов, ...

ЗодчийТеней:
я прошу лишь обосновывать свои ответы

Я уже написал в каком порядке могут быть ответы,

прочитайте эту тему еще раз внимательно, ...

ЗодчийТеней:
яндекс говорит что он вложил свой словарь в объем в 300Кб, что позволило им полностью загружать его в ОЗУ, вопрос заключался в следующем, как они это сделали

Не знаю как это сделали они,

я сжимал словарь заранее и разжимал его при поиске, ...

ЗодчийТеней:
вы не дали вразумительного ответа

Если Вы будете хамить то ответа не будет, ...

ЗодчийТеней:
пожалуйста ваш алгоритм, если вы можете ваши слова
подтвердить на практике я уже готов купить его

Еще раз повторяю что Вы не очень внимательны, ...

ЗодчийТеней:
объясните мне глупому, почему вы так уперлись что один пользователь на одной машине? с каких пор данные с веба стали обрабатываться в операционке локальной машины? или вы думаете что поисковики ставят одельный сервер под каждый поисковый запрос?

Потому что сначала надо знать какая была задача и

уже потом приспособить решение для новых условий, ...

ЗодчийТеней:
поясните пожалуйста, на меня работает команда из 17! технологов микроэлектроники, веб это мое хобби которое я могу себе позволить, если вы готовы предложить действующую технологию предлагайте, покачьто это лиш ваши, пардон, словесныные утверждения

Похоже что Вы обойдетесь без этой технологии, ...

ЗодчийТеней:
да кстати, если вы вдруг не знали, интел делает ставку на гонку частот а не на конвейеризацию вычислительных процессов

Куда уже гнать? Намного быстрее физически невозможно, ...

А процессор Pentium от того что было до него

существенно отличается не конвейером который

был и раньше а параллельностью вычислений

в одном процессоре, ...

itman:
Потому как задача размещения словаря в памяти в сжатом виде в некотором роде эквивалентна задачи сжатия вообще.

Это совсем разные задачи, ...

itman:
А потом если размер словаря хотя бы сравним с испелловским, тогда было бы интересно узнать алгоритм.

Размер сравним, алгоритм бесплатно не раздается, ...

euhenio:
только про самые употребительные.
itman:
зализняковских 100-150 тысяч

300kb вполне достаточно, ...

ЗодчийТеней:
а теперь пробуем применить это все на поисковый сервер, а не на локального пользователя, пусть даже это крупный сервер с распределением запросов на разные машины, какие процессорные ресурсы вам понадобятся для обеспечения декомпрессии при каждом запросе?

Это было практически без задержек для пользователя

даже на ЕС-1841 с тактовой частотой 4.5 MHz а насколько

быстро получится на современных гигагерцах с Pentium

распараллеливанием при компиляции оптимизирующим

компилятором надо пробовать, ...

ЗодчийТеней:
как вы собираетесь найти соответствия поисковому запросу в словаре кроме как развернув его весь?

Разворачивать словарь можно по разному, ...

ЗодчийТеней:
речь не шла о локальных машинах, может конечьно я не так понял что именно сказано у яндекса, поэтому цитирую еще раз:
частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

Как я уже писал один пользователь на одной машине, ...

ЗодчийТеней:
выставляйте вашу модель на обсуждение либо покажите практичускую ее реализацию и мы обсудим ее стоимость. я готов легально купить технологию которая меня интересует, не вижу смысла прятаться в приват.

Похоже что Вы не очень внимательны, ...

Iso:
Бывают ситуации, когда в оперативной памяти совершенно нормально хранятся сжатые данные. Это не всегда имеет смысл, но для словарных задач, мне кажется, что это весьма распространённый подход. Во всяком случае, в те времена, когда 2 Мб оперативки были пределом мечтаний :)

Я это делал на ЕС-1841 у которой

было 640kb оперативной памяти, ...

ЗодчийТеней:
я оплачу ваши знания, и может быть но их основе
произойдет прорыв в микропроцессорной технике?

При чем здесь микропроцессорная техника?

Задача умять словарь в 300kb оперативной памяти,

причем насколько я помню что написано у Yandex это

для одного пользователя на локальной машине.

Такую задачу я решил и могу объяснить как.

ЗодчийТеней:
Назовите вашу цену

Чем больше будет с Вашей стороны тем

лучше будет с моей, предлагайте в приват, ...

ЗодчийТеней:
обоснуйте свои утверждения пожалуйста

То что пишу я тоже основано на практике,

только в отличии от Вас я эту задачу решил,

но такие знания бесплатно не раздаются, ...

ЗодчийТеней:
вы просто потратите больше процессорного времени чем если бы вы загрузили в оперативку те же данные в развернутом виде,

Совсем не обязательно, ...

Всего: 6022