Размер словаря

Artisan
На сайте с 04.03.2005
Offline
375
#31
itman:
Потому как задача размещения словаря в памяти в сжатом виде в некотором роде эквивалентна задачи сжатия вообще.

Это совсем разные задачи, ...

itman:
А потом если размер словаря хотя бы сравним с испелловским, тогда было бы интересно узнать алгоритм.

Размер сравним, алгоритм бесплатно не раздается, ...

euhenio:
только про самые употребительные.
itman:
зализняковских 100-150 тысяч

300kb вполне достаточно, ...

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#32
Iso:
Ладно, пробуем сначала простую задачу

это вовсе не вымышленная задача, и не глупая, подобные схемы опробывали не один раз, и до сих пор, по крйней мере в аппаратной части, разумное решение этой проблемы предложено небыло, вывод один, лучьше загрузить в озу больше данных но без компресии, выигрыш в производительности в разы, к томуже стоимость озу на порядок меньше чем стоимость процессорных мощностей

з.ы. я надеюсь что никто не будет оспаривать мнение о том что аппаратное решение любого алгоритма на порядок производительнее его программной модели

Iso:
Это было практически без задержек для пользователя
даже на ЕС-1841 с тактовой частотой 4.5 MHz а насколько
быстро получится на современных гигагерцах с Pentium
распараллеливанием при компиляции оптимизирующим
компилятором надо пробовать, ...

пожалуйста ваш алгоритм, если вы можете ваши слова подтвердить на практике я уже готов купить его

Artisan:
Разворачивать словарь можно по разному, ...

смотрите выше

Artisan:
Как я уже писал один пользователь на одной машине, ...

объясните мне глупому, почему вы так уперлись что один пользователь на одной машине? с каких пор данные с веба стали обрабатываться в операционке локальной машины? или вы думаете что поисковики ставят одельный сервер под каждый поисковый запрос?

Artisan:
Похоже что Вы не очень внимательны, ...

поясните пожалуйста, на меня работает команда из 17! технологов микроэлектроники, веб это мое хобби которое я могу себе позволить, если вы готовы предложить действующую технологию предлагайте, покачьто это лиш ваши, пардон, словесныные утверждения

Artisan:
быстро получится на современных гигагерцах с Pentium
распараллеливанием при компиляции оптимизирующим

да кстати, если вы вдруг не знали, интел делает ставку на гонку частот а не на конвейеризацию вычислительных процессов

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".
Artisan
На сайте с 04.03.2005
Offline
375
#33
ЗодчийТеней:
пожалуйста ваш алгоритм, если вы можете ваши слова
подтвердить на практике я уже готов купить его

Еще раз повторяю что Вы не очень внимательны, ...

ЗодчийТеней:
объясните мне глупому, почему вы так уперлись что один пользователь на одной машине? с каких пор данные с веба стали обрабатываться в операционке локальной машины? или вы думаете что поисковики ставят одельный сервер под каждый поисковый запрос?

Потому что сначала надо знать какая была задача и

уже потом приспособить решение для новых условий, ...

ЗодчийТеней:
поясните пожалуйста, на меня работает команда из 17! технологов микроэлектроники, веб это мое хобби которое я могу себе позволить, если вы готовы предложить действующую технологию предлагайте, покачьто это лиш ваши, пардон, словесныные утверждения

Похоже что Вы обойдетесь без этой технологии, ...

ЗодчийТеней:
да кстати, если вы вдруг не знали, интел делает ставку на гонку частот а не на конвейеризацию вычислительных процессов

Куда уже гнать? Намного быстрее физически невозможно, ...

А процессор Pentium от того что было до него

существенно отличается не конвейером который

был и раньше а параллельностью вычислений

в одном процессоре, ...

ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#34
Artisan:
Потому что сначала надо знать какая была задача и
уже потом приспособить решение для новых условий, ...

прекрасно, давайте для начала опишем задачу, по крайней мере то ее видение которое я вкладывал создавая этот топик. есть поисковый запрос который надо обработать на соответствие словам содержащимся в словаре поисковой системы, и все это надо сделать с минимальными затратами ресурсов, в частности предполагалось что весь словарный запас будет загружен в ОЗУ, яндекс говорит что он вложил свой словарь в объем в 300Кб, что позволило им полностью загружать его в ОЗУ, вопрос заключался в следующем, как они это сделали

все остальные ваши комментарии я покачьто опушу, в связи с тем что вы не дали вразумительного ответа ни на один из поставленных вопросов

Artisan
На сайте с 04.03.2005
Offline
375
#35
ЗодчийТеней:
яндекс говорит что он вложил свой словарь в объем в 300Кб, что позволило им полностью загружать его в ОЗУ, вопрос заключался в следующем, как они это сделали

Не знаю как это сделали они,

я сжимал словарь заранее и разжимал его при поиске, ...

ЗодчийТеней:
вы не дали вразумительного ответа

Если Вы будете хамить то ответа не будет, ...

ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#36
Artisan:
Не знаю как это сделали они,
я сжимал словарь заранее и разжимал его при поиске, ...

опятьже лиш слова

Artisan:
Если Вы будете хамить то ответа не будет, ...

предлагаю в дальнейшем, в данном топике, не обращать внимания на высказывания пользователя с никнеймом Artisan в связи с его неспособностью обосновать свои ответы

I
На сайте с 26.05.2001
Offline
64
#37

Если вы уложили в 300кб набор слов, которые в распакованном виде занимают 4-8 Мб, то вы решили задачу более чем десятикратного сжатия. Вы согласны с этим утвеждением?

И все-таки, не сочтите за настойчивость нельзя ли огласить размер словаря по числу исходных форм.

Artisan:
Это совсем разные задачи, ...
Размер сравним, алгоритм бесплатно не раздается, ...
300kb вполне достаточно, ...
ЗодчийТеней:
опятьже лиш слова

предлагаю в дальнейшем, в данном топике, не обращать внимания на высказывания пользователя с никнеймом Artisan в связи с его неспособностью обосновать свои ответы

Я бы Вас тоже попросил не хамить Артизану. Все-таки у нас тут научная дискуссия, а не спарринг :)

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
ЗодчийТеней
На сайте с 13.02.2006
Offline
11
#38

itman,

itman:
Я бы Вас тоже попросил не хамить Артизану. Все-таки у нас тут научная дискуссия, а не спарринг

любая дискуссия это своего рода спарринг, если я кому-то где-то нахамил, или кого-то где-то обидел, укажите мне на это и я извинюсь, если был не прав, покато я прошу лишь прошу обоснованные ответы, не словами по типу "я это сделал", я много чего сделал в свои 27, но это мало кого интересует, я прошу лишь обосновывать свои ответы

Artisan
На сайте с 04.03.2005
Offline
375
#39
itman:
Если вы уложили в 300кб набор слов, которые в распакованном виде занимают 4-8 Мб, то вы решили задачу более чем десятикратного сжатия. Вы согласны с этим утвеждением?

Я согласен с этим утверждением, ...

itman:
И все-таки, не сочтите за настойчивость нельзя ли огласить размер словаря по числу исходных форм.

Порядка 100 тысяч слов, точнее не считал,

но это были не исходные формы, скорее это

можно назвать уникальными словами, ...

Задача словаря с морфологией как это

обычно понимают практически такая же

с точностью до порядка 10 процентов, ...

ЗодчийТеней:
я прошу лишь обосновывать свои ответы

Я уже написал в каком порядке могут быть ответы,

прочитайте эту тему еще раз внимательно, ...

!Иван FXS
На сайте с 16.11.2001
Offline
119
#40
itman:
Если вы уложили в 300кб набор слов, которые в распакованном виде занимают 4-8 Мб, то вы решили задачу более чем десятикратного сжатия.

- извините, а что такое "распакованный вид"? Это когда каждый символ занимает 8 бит? Или - как в Юникоде - 16 бит?

А букв в русском алфавите 33, то есть кодируются они 5 (с небольшим хвостиком) битами ...

На самом деле, я думаю, что Artisan так много туману напускает - по поводу кодирования n-грамами (буквеными).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий