а) да, но мне это кажется неправильным разделом форума.
б) поставить норальный пакет статистики, который показывает слова запроса с учетом регистра
это зависит от поисковика, в Яндексе, например, регистр просто влияет на резульатат выборки, надо думать, что и на ранжирование тоже.
см.
http://www.yandex.ru/yandsearch?text=%F2%E0%F0%F2%E8%ED%EA%E0&stype=www
http://www.yandex.ru/yandsearch?text=%D2%E0%F0%F2%E8%ED%EA%E0&stype=www
ok, если Вам так все понятно, то может объяснить навскидку
а) что такое блочно-слотовая организация данных? ссылки нет, а я так не и не смог понять, что в этом термине от блочности, а что от слотовости
б) что такое "и специальное представление текстов основы. Это представление заменяет текст основы на сответствующий ему бит из хэш-таблицы большого размера." надо думать, что это специальное представление - просто хеш-функция, но почему так запутанно написано? а все потому что конспирация непонятно от кого и непонятно зачем. Хотя не исключаю и недостаток времени. А теперь возьмите и почитайте оригинальную статью MclIroy
http://gpsis.utp.edu.co/downloads/a3udeloz_spell.pdf и Вы поймете, что понятно, а что не очень. :-)
в) ну и наконец последний вопрос (ссылку с PDF только чур не открывать): как называется оригинальная статья, на которую Илья ссылается? конечно, сейчас есть гугл скулар, просто гугл автокорректор в гугле, но раньше я бы, вполне возможно, не нашел бы эту статью, пользуясь альтавистой.
о, смотрите мой комментарий выше про статью я там поправил. итого 300 кб - это не стопроцентно точный, рандомизированный алгоритм.
Да, но речь шла не просто про умять, а про умять и искать. а префиксные коды искать позволяют только последовательно.
это раз. Наверное, можно туда запихнуть указатели с префиксными метками для бинарного поиска. Получится некий гибрид с деревом. Если много меток вставим раздуется размер, будет 400-500к, если мало будет скорость не очень.
потом Вы так и не обосновали существование надежного способа генерации id (пусть и с дырками) по строковому представлению. это два.
PS: кстати, вот http://company.yandex.ru/articles/article5.html статья Ильи, только я в ней никогда ничего почти не понимал, потому что Илья ее тоже, похоже, писал старательно конспирируясь.
Кстати, после внимательного прочтения статьи, понимаешь, что там поиск не гарантирует стопроцентную точность. отсюда и такой малый размер quad erat demonstrandum.
ох, блин
awk 'BEGIN{p="";s=0;}{m=0;for (i=1;i<=length($1) && i<=length(p) && substr($1, 1, i) == substr(p, 1, i); ++i) m=i;;p=$1;s+=1*sprintf("%d",0.5 + 0.5 + 5/8.0*(length($1) - m));}END{print s/1024}' dict1 297.629 wc dict1 106242 106241 1138871 dict1
ну вообще-то похоже. выше это скрипт подсчета длины префиксного кода. практически ровно триста ка. единственная проблема заключается в том, что искать в нем надо полным перебором.
Значит поясняю первый 0.5 это для округления, второй это 4 бита на хранение длины, далее длина суфикса из расчета 5 битов на букву.
Если сказали А, то говорите Б, а то мы будем думать, что это и есть дешевый развод. Меня, кстати, безумно радует эта атмосфера секретности. При этом, как показывает опыт, если копнешь поглубже, то все эти так называемые секреты или ошибка эксперимента (то бишь забыли, преувеличили, итд итп), или давно уже опубликовано. Так что, просим аргументы в студию, иначе будем считать, что профессор зачот не сдал :-)
при этом я ни за что не поверю, что алгоритм генерации уникальных айди на основе строк настолько важен, что его нельзя рассекретить :-)
да, это один вариант: префиксный код.
второй вариант: префиксное дерево. вот только все-таки по моим подсчетам см. их выше с поправкой, что все-таки средняя длина слова в словаре не 8, а 9 байт, все-таки побольше 300к получается. 400-500.
А вот Артизан утверждает, что есть еще один вариант хранения, и что он как раз влезает в 300 к для 100 тысяч словооснов. Могу с натяжкой поверить, но проверить увы.
ок тогда опровергните их.
и морфология есть готовая. у Кевы можно купить. на macrocosm.narod.ru даже бесплатно скачать под винды и линукс.
есть два варианта
1) хранить, тогда прощай компактное представление. точнее не прощай, но это доп расходны на хранение.
2) генерировать из слова уникальные id. но я не знаю алгоритма, который гарантировал бы уникальность такого id.
Вот и кстати, тов Зодчий на тему компактного представления словаря. СЕЙЧАС эта задача уже не актуальна, в отличие от компактного представления инвертированного индекса. Потому что словарь по сравнению с этим самым индексом мааахонький.
Почему же, я собираюсь заняться. Причем даже не одним, но узкоспецилизированными. И при наличии основной работы. Дык спать семь часов в день все равно надо, башка иначе перестанет варить. И таски, которые на свежую голову занимают час времени легко могут потребовать месяца усилий.