задачУ (да еще - в единственном числе!) - это хороший вопрос.
Вообще-то я не программист (в смыле - професиональный), мне - по нынешней работе (что-то типа аналитика экономического, бизнесового, иногда - инновационого) просто нужно много шариться по интернету.
А всякими "интеллектуальными технологиями" я интересуюсь факультативно, в порядке личного развития. Гордо ношу, так сказать, звание Advanced User.
Одна из моих задумок - сделать ИНДИВИДУАЛЬНЫЙ ИНСТРУМЕНТАРИЙ для работы с интернетом - в виде MS Access и IE под ним (то есть - SHDocVw.InternetExplorer) ... Ну и - в морфологический разбор я очень быстро в этой задачке упираюсь.
- эээ ... сорри ... Вы - о:
(на странице с многозначительным адресом http://linguist.nm.ru/ling/price.html ) ;-)
- интересно, если я захочу использовать этот модуль в
а. своей собственной
б. (профессиональной) РАБОТЕ
... а работаю я, естественно, в КОММЕРЧЕСКОЙ организации (не в фонде благотворительном же!), то это - куда?
Два вопроса по статье:
1. что такое "словарь, передставленный в виде бора"?
2.
- как СЕЙЧАС пользователь Яндекса может осуществлять такое "наложение"?
- перечитал еще раз ... возникли вопросы:
1. получается, что не всякая словоформа является лексемой ... Или Вы просто забыли добавить в определении ЛЕКСЕМЫ "иногда с дефисом"?
2. а как быть с нижним прочерком ("_")? Не целесообразно ли включить его в состав символов, образующих ЛЕКСЕМУ?
И еще вопрос - про "обычные" методы определения порядкового номера сло ... лексемы в "текстовом потоке":
предположим, мы анализируем такой "текст":
Мама ## № мыла11 "раму".
- сколько в нем - всего - лексем?
- какие "номер по счету" имеют в нем лексемы [мыла11] и [раму]?
А http://turbo10.com/index.html - кластеризует ... довольно скупо, правда, и с русским тоже не дружит ...
http://www.iboogie.tv - кластеризует и по-русски понимает. По виду очень похоже на Vivísimo ... но ссылается на другую "фирму" (www.clusterizer.com).
Конечно, чтобы показывало: в A9 меня заинтересовало именно то, что там это - часть сервиса!
[edited]
Кстати, могу сразу добавить, что такой же сервис есть на http://myjeeves.ask.com/mysearch/DisplaySearchesHome , только Дживс совсем не умеет искать по-русски :-(
А вот если бы кто показал мне "движок" совмещающий функционалы A9 и Vivísimo ... я был бы просто счастлив!
Да, в самом деле ... только ... Mail.ru (в отличие от A9) не требует sign in, из чего я делаю вывод, что он хранит эту информацию в Cookies на моем компьютере. Правильно?
У-упс ... попытался исправить тему ... но не тут то было! :-(
- как только я слышу "page rank", моя рука тянется к пистолету (шутка).
- вряд ли это - аргумент ...
Я настаиваю, что в "Исп. обяз." точки игают очень важную ЛИНГВИСТИЧЕСКУЮ роль и ... имеют очень большую "потребительскую ценность"!
- то есть от индексации "мусора" Вы гордо отказываетесь?
Является ли это общепринятой практикой у SE?
И еще: не кажется ли Вам, что - в данном примере - считать лексемами "Исп." и "обяз." было бы более ... осмыслено?