вопрос был о скорости индексирования,
хотя и про поиск у Вас проскочило "пакет" из 1000 запросов - это можно воспринять, что Вы запускаете один запрос на 2000-3000 слов
вопрос был о том - производится ли индексирование с морфологией с учетом локального контекста либо морфологически разбирается только запрос
Вот, кстати, по всей этой впечатляющей скорости вопросы:
1. обработка "миллионов" файлов идет по одному или все ставится в один поток/пакет?
такие штучки вполне могут все ускорять и при стандартных алгоритмах - тут дело в конфигурации решения, кто сам написал, тот и имеет преимущества перед пользователями стандартных библиотек
2. морфология "локальна" - для каждого вхождения, где можно пытаться снимать неоднозначность - либо "глобальна" (можно вообще без морфологии - хранить только словоформы исходных текстов - и разбирать только запрос)
тоже сильно ускоряет, и, внешне, работает, однако будет несколько проигрывать тем системам, где будет более полный разбор - но если на это забить...
наверное, я что-то не понимаю в этой жизни
зная некоторых из упомянутых могу сказать:
- люди они умные, но живут как 20 лет назад
- иногда именно они по сути решают судьбу денег (и не только гос)
- люди они влиятельные и довольно много народа - аспирантов и т.п, занимающегося поиском, с ними столкнется
так что это не только развлекательное, но и глубокое чтение...
(а остальным это - как там itman-то сказал)
кстати сигары после водки? - после виски или коньяка!
Для модераторов:
зря Вы перенесли тему из "Поисковых технологий" - верните обратно
все правильно, идеального алгоритма не существует
но зачем же так мучаться - легко предложить алгоритмы, решающие задачу с 99,9% необходимых характеристик и добавить обработку исключений
например, обрабатывать известный словарь - по дереву букв,
а неизвестные класть в хеш (с проверкой)
ну да, иногда будут коллизии, придется искать место - долго, конечно, но редко, очень редко
и все.
может быть имелась в виду потенциально полезная задача создания уникального хэша для известного словаря?
Если хотят учиться....
Человеку может не понравиться именно эта, новая для него сфера деятельности.
Дальше - в зависимости от характера - либо сразу скажет, что все плохо - либо (что гораздо хуже) будет мучаться и измучает "учителя"
И заранее, как оно будет, сказать нельзя.
Может повезет - а может нет.
Когда решение задачи понятно - все кажется очевидным - однако, какой путь верный....
Выращивание своих специалистов - дело крайне увлекательное.
Но к бизнесу не имеет никакого отношения:
- например, для студентов - которые "выращиваются" - если процент оставшихся превышает 10% - это считается хорошо
- тем более в области SE - это не самый прибыльное занятие - квалифицированный, но не мотивированный энтузиазмом, народ легко может соскочить
- а по деньгам это будет еще больше... тем более, для верности надо брать не одного, а несколько - и время на "въезжание" - не менее года
вообщем - нереально в озвученной постановке задачи
2 mujaji: то есть те же деньги, вид сбоку, из расчета на 6 месяцев (с налогами)
имелось в виду книги по поиску в постановке задачи mujaji
сомнительно, важна именно команда
первый-то тоже должен что-то понимать - "бывший исследователь" - это означает не никакой, а просто не занимающийся сам, но участвующий в обсуждении
привлечение только "приходящего" исследователя возможно - но работа будет делаться дольше - не меньше года
не учили и не учат - в смысле специалистов не выпускают
постоянно идут разные тусовочно-научные конференции - там и спрашивайте - при нормальной цене будут и нормальные предложения
самое главное - хороший результат при исследовании можно получить обычно не ранее чем за 6 месяцев:
1) понять постановку задачи
2) раскачка (организация трудовых связей и вхождение в трудовой ритм)
3) теоретическое изучение
4) изготовление "макета" (стенда)
5) реализация не ОДНОЙ, а НЕСКОЛЬКИХ моделей
6) выбор наилучшей
7) доводка
8) "сломать" программистов заказчика (они обычно сами очень умные), чтобы делали что скажут, а уж потом если сумеют улучшат
9) документация - лучше по стандарту - например, любому ГОСТу - она вам понадобится в случае успеха проекта через год-два
довольно важный момент - результаты должны "вылежаться", на что само по себе уходит месяц-два
можно, конечно, и быстрее - если только этим с интересом заниматься - что то я в этот вариант не верю
можно и дольше -
так что 6 месяцев - многократно проверенный оптимальный срок
лучше всего занято 3 человека (на неполный день)
как говорит kit - тим-лидер (постановщик, "здравый смысл", типа "бывший исследователь", рулит)
+ профессиональный исследователь (сека, честность, качество, задает направление)
+ программист-универсал (пишет и многократно переписывает быстро и правильно всю чушь, что ему говорят первые два)
(вы такой коллективчик соберите сначала - чтобы они друг друга сразу не прибили :)
ну, конечно, персонал - сисадмины (водопроводчики), девочки-курьеры и все такое
30 К$ (с налогами):
5000 в месяц = 2500 без налогов
довольно скромненько - трудовые деньги, не учитывалась срочность и большая заинтересованность заказчика
можно и по другому как-то, это только один из вариантов
что надо учесть - сейчас вообще-то бум и дефицит работоспособных команд - заказчик стоит стеной - и хотя, например, меня с сотоварищи этот расклад мог бы в принципе устроить - но уже до конца года занято все такими же трудовыми контрактами - смысла нет брать в новой области когда и в старых нет проблем - а поднимать цену в 2-3 раза заказчик вряд ли будет
сейчас государство в массовом порядке такие заказы раздает - а там даже и не требуется что-нибудь создавать...
да конечно! человек сам кузнец своего счастья!
но риски-то какие!
флаг в руки - паровоз навстречу!
да и где тут раздают сразу "соотв. базис теоретических знаний"?
это ведь не те, про которые в книжках, а те, которые на собственной шкуре!
да и книжек на эту тему нет