- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Лексема при разборе естественного языка представляет собой совокупность множеств букв и цифр. Все.
- перечитал еще раз ... возникли вопросы:
1. получается, что не всякая словоформа является лексемой ... Или Вы просто забыли добавить в определении ЛЕКСЕМЫ "иногда с дефисом"?
2. а как быть с нижним прочерком ("_")? Не целесообразно ли включить его в состав символов, образующих ЛЕКСЕМУ?
И еще вопрос - про "обычные" методы определения порядкового номера сло ... лексемы в "текстовом потоке":
предположим, мы анализируем такой "текст":
Мама ## № мыла11 "раму".
- сколько в нем - всего - лексем?
- какие "номер по счету" имеют в нем лексемы [мыла11] и [раму]?
У всех разработчиков поисковиков несколько свой подход. Возможны два крайних варианта и остальные его промежуточные:
1. каждая позиция в документе может содержать несколько лексем и их комбинаций. Смотрите описание интерфейса IWordBreaker из MS IndexEngine. В этом случае мыла11 можно представить как {мыла11, мыла, 11}
2. бить на как можно меньшие лексемы, а всякие соединенные варианты получаются с использованием координатной информации. За примерами сходите в yahoo и поищите какой-нибудь номер с точками и тире. Другое дело в оригинале может быть мыло/11, а найдется мыло.11.
Какие символы отнести к словам - отдельная беда. Когда появился C# некоторые поисковики не могли искать по #, что приводило к проблемам.
Из личного опыта - введение "лишних" символов может заметно увеличивать словарь и приводить к недоразумениям при поиске обычных слов, но очень помогает, если пользователи часто ищут номера и коды.