Правильно ли я понял, что Вы считаете целесообразным считать ЛЕКСЕМОЙ:
1. Непрерывную последовательность из - вперемешку- букв (русских и "иностранных"), цифр и дефиса (во всех его ипостасях?)
2. Каждую непрерывную последовательность символов, заключенную МЕЖДУ лексемами, описанными в п.1
?
То есть фраза "Исп. обяз. директора" состоит из пяти лексем:
"Исп"
"обяз"
"директора"
и ". " дважды
Ок, спасибо за науку.
Но, надеюсь, Вы увидели РАСШИФРОВКУ вопроса:
"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?
дык! Вроде бы SE комбинации из букв и цифр тоже индексируют:
Результат поиска: страниц — 256, сайтов — не менее 92
От нашего стола - вашему столу:
Результаты 1 - 10 из примерно 16 100 000 для large content.
"ни маленькой, ни быстрой по поиску" - все в мире относительно ... мне так кажется, что НА БОЛЬШИХ "ЧЕЛОВЕЧЕСКИХ" контентах она как раз будет "сравнительно маленькой", а по сравнению с "обычными" архиваторами может оказаться "относительно быстрой" ...
Впрочем, не могу сказать, чтобы я был в этом "настойчиво" уверен ... потому и хотел бы обсудить тему со специалистами.
"Что хочу делать" - хранить и обрабатывать "БОЛЬШИЕ "ЧЕЛОВЕЧЕСКИЕ контенты" ... более подробно - опять же - пока не знаю , чего я хочу ... ;-)
- что-то не могу его найти ...
"Мастерица" - это ник?
Поиск - ни по "астери", ни по "asteri" - ничего не дает ...
Тихо сам с собою ...
Вот, например, список:
http://www.filesearch.ru/cgi-bin/s?q=book&w=r&t=f&m=2000000000000&o=s&s=on&u=on&s1=10000000&s2=&d=ru%2Csu&p=&p2=&x=28&y=11
- как мне узнать, какие из этих "book" на русском языке?
Продолжение вопроса: существуют ли SE обеспечивающие поиск ПО КОНТЕНТУ ftp-серверов, а не только по названиям файлов?
- я пришел из СУБД ... там индекс - это то, что позволяет СИСТЕМЕ эффективно выполнять запросы ... к таблице.
В области SE эта терминология (парадигма?) разве не работает???
Ок, поискал по запросу "устроен индекс", нашел ветку Как устроена поисковая система внутри, которая сама по себе меня не очень впечатлила, но из нее идет ссылка на статью:
Как работают поисковые системы (И. В. Сегалович)
- это то, о чем Вы говорите, или было что-то еще?