- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как "словоформы"?
Я представляю себе такое "радикальное решение":
считаем словоформами
1. непрерывные последовательности из букв
2. пробел
3. знаки препинания
4. все непрерывные последовательности символов, заключенные МЕЖДУ перечисленными тремя типами "словоформам" ...
- но оно, наверное, не является ... наилучшим?
Словоформы - различные грамматические формы одного и того же слова - "непрерывные последовательности из букв, иногда с дефисом". :) Все словоформы составляют парадигму.
Подробнее смотреть здесь.
дык! Вроде бы SE комбинации из букв и цифр тоже индексируют:
Результат поиска: страниц — 256, сайтов — не менее 92
Так это уже называется лексема, а не словоформа.
Ок, спасибо за науку.
Но, надеюсь, Вы увидели РАСШИФРОВКУ вопроса:
Или - по-другому - каковы общепринятые (для SE) принципы деления "длинной строки" (содержащей в себе, вообще говоря, полный зоопарк символов) на "короткие строки", понимаемые в дальнейшем как ...
"словоформы" или "лексемы"? Ошибка в названии - не меняет ведь СУТИ вопроса, правда?
Лексема при разборе естественного языка представляет собой совокупность множеств букв и цифр. Все.
Правильно ли я понял, что Вы считаете целесообразным считать ЛЕКСЕМОЙ:
1. Непрерывную последовательность из - вперемешку- букв (русских и "иностранных"), цифр и дефиса (во всех его ипостасях?)
2. Каждую непрерывную последовательность символов, заключенную МЕЖДУ лексемами, описанными в п.1
?
То есть фраза "Исп. обяз. директора" состоит из пяти лексем:
"Исп"
"обяз"
"директора"
и ". " дважды
?
"Исп"
"обяз"
"директора"
и ". " дважды
?
Из трех :) Все остальное - разделители.
Из трех :) Все остальное - разделители.
- то есть от индексации "мусора" Вы гордо отказываетесь?
Является ли это общепринятой практикой у SE?
И еще: не кажется ли Вам, что - в данном примере - считать лексемами "Исп." и "обяз." было бы более ... осмыслено?
Является ли это общепринятой практикой у SE?
Да. У любой поисковой системы есть лексикон, хранящий основы или нормальную форму слов. Первым делом поиск проводится в нем. Читайте классиков.
Осмысленность? Чего-чего, а этого ну никак нельзя сказать ни об одном из практически реализованных алгоритмов поиска. :)
Читайте классиков.
- как только я слышу "page rank", моя рука тянется к пистолету (шутка).
- вряд ли это - аргумент ...
Я настаиваю, что в "Исп. обяз." точки игают очень важную ЛИНГВИСТИЧЕСКУЮ роль и ... имеют очень большую "потребительскую ценность"!