!Иван FXS

!Иван FXS
Рейтинг
119
Регистрация
16.11.2001

Правильно ли я понял, что Вы считаете целесообразным считать ЛЕКСЕМОЙ:

1. Непрерывную последовательность из - вперемешку- букв (русских и "иностранных"), цифр и дефиса (во всех его ипостасях?)

2. Каждую непрерывную последовательность символов, заключенную МЕЖДУ лексемами, описанными в п.1

?

То есть фраза "Исп. обяз. директора" состоит из пяти лексем:

"Исп"

"обяз"

"директора"

и ". " дважды

?

Ок, спасибо за науку.

Но, надеюсь, Вы увидели РАСШИФРОВКУ вопроса:

Как писал !Иван FXS
Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как ...

"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?

дык! Вроде бы SE комбинации из букв и цифр тоже индексируют:

Результат поиска: страниц — 256, сайтов — не менее 92

"ни маленькой, ни быстрой по поиску" - все в мире относительно ... мне так кажется, что НА БОЛЬШИХ "ЧЕЛОВЕЧЕСКИХ" контентах она как раз будет "сравнительно маленькой", а по сравнению с "обычными" архиваторами может оказаться "относительно быстрой" ...

Впрочем, не могу сказать, чтобы я был в этом "настойчиво" уверен ... потому и хотел бы обсудить тему со специалистами.

"Что хочу делать" - хранить и обрабатывать "БОЛЬШИЕ "ЧЕЛОВЕЧЕСКИЕ контенты" ... более подробно - опять же - пока не знаю , чего я хочу ... ;-)

Как писал greenwood
был хороший пример с полгода назад приведен Мастерицей ...

- что-то не могу его найти ...

"Мастерица" - это ник?

Поиск - ни по "астери", ни по "asteri" - ничего не дает ...

Тихо сам с собою ...

Вот, например, список:

http://www.filesearch.ru/cgi-bin/s?q=book&w=r&t=f&m=2000000000000&o=s&s=on&u=on&s1=10000000&s2=&d=ru%2Csu&p=&p2=&x=28&y=11

- как мне узнать, какие из этих "book" на русском языке?

Продолжение вопроса: существуют ли SE обеспечивающие поиск ПО КОНТЕНТУ ftp-серверов, а не только по названиям файлов?

Как писал greenwood

это что за индексы такие ? первый раз слышу ...

- я пришел из СУБД ... там индекс - это то, что позволяет СИСТЕМЕ эффективно выполнять запросы ... к таблице.

В области SE эта терминология (парадигма?) разве не работает???

Ок, поискал по запросу "устроен индекс", нашел ветку Как устроена поисковая система внутри, которая сама по себе меня не очень впечатлила, но из нее идет ссылка на статью:

Как работают поисковые системы (И. В. Сегалович)

- это то, о чем Вы говорите, или было что-то еще?

Всего: 644