из 750 тыс проиндексированных страниц удалось собрать словарь размером в 138 тыс. уникальных слов, поэтому думаю что цифра в 1 миллиард очень уж избыточная
мдя, видимо у кого то из участников не хватает смелости высказать претензии в лицо и он предпочитает инкогнито понижать рейтинг, за сегодня аж три раза покусился, что ж каждый по своему проявляет свою слабость
отступление от темы, а как в этом случае быть бедным китайцем с их 100 тысячным списком базовых иероглифов?
з.ы. интересно кто это на меня так обиделся что ежедневно добавляет мне минусы в репутацию на основании темы о размере словаря? ;-)
my $id = join '', map {ord($_)} split //, $word;
оригинальный метод, но тогда стоит вернуться к первоначальному вопросу, а именно методе позволяющем впихнуть в 300Кб словарь с учетом морфологии русского языка, и именно алгоритм позволяющий реализовать это по утверждениям Артизана им и упоминался.
Хотя с моей точки зрения обе темы уже утратили свою актуальность и перешли в плоскость обсуждения "необоснованных" высказыванию некоторых форумян, это уже просто ребячество. ИМХО.
любая реализация идеи имеет свою цену, но вот когда человек говорит что я знаю как но никак не может подтвердить свои слова это уже наводит на нехорошие мысли :-(
примерно такую схему я и пытаюсь релизовать сейчас, каждое словоформ апредставлена примерно следующей матрицей {приставка|основа|окончание}, именно такой массив матриц я и хочу получить на выходе после фильтрации запроса через словарь
вы опять говорите "а" но не говорите "б", думаю что из вас вышелбы неплохой адвокат
насчет индекса согласен, но насчет компактности словаря не согласен, при работе с озу вы всегда получите большую скорость, поэтому загрузив все исходные данные в озу вы получите неплохой прирост производительности
всегда есть вариации, у каждого свои нюансы
а что вам мешает по этим данным вычислить идентификатор слова? он ведь вам всеравно понадобится, так почему его не заложить сразу в алгоритм?
это увы малорельно :-(, думаете что сегодня человек при здравом уме затеит эксперемент с созданием поискового сервиса?
я же не прошу писать алгоритм :-)
я лишь интересуюсь мнением людей, как это лучше сделать, какие кто предложит схемы реализации, конечный выбор и соответственно программную реализацию я все равно выберу и буду делать сам
для упрощения обсуждаемой задачи давайте остановимся на получении на выходе идентификатора основы слова, идентификаторов приставки и окончания, это если брать грубую модель
дык это и ежу понятно. Положим, что на данный момент я располагаю 4 Гб озу в которые вполне свободно могу впихнуть все свои 1,5 Гб распакованных данных, но ведь это не выход? данные будут расти, а объем озу конечен в отличие от объема пзу, так зачем я все доступные данные буду грузить в озу? я пытаюсь ограничиться лишь словарем на основании которого получу идентификаторы всех возможных словоформ из поискового запроса
тогда акцентируйте наконец внимание на своей мысли, я всего лишь человек, к тому же человек который уже пятые сутки не спит, я могу и упустить что то