walker

Рейтинг
40
Регистрация
23.09.2004
Leom:
Про что вопрос? И причем в скорости поиска обработка файлов?

вопрос был о скорости индексирования,

хотя и про поиск у Вас проскочило "пакет" из 1000 запросов - это можно воспринять, что Вы запускаете один запрос на 2000-3000 слов

Leom:
У нас можно искать и с морфодлогие и без -- еслти загрузить прогу то это становится сразу видно

вопрос был о том - производится ли индексирование с морфологией с учетом локального контекста либо морфологически разбирается только запрос

Leom:
... Поиск идет пакетно -- мы тестили на 1000 запросах на базах ...

Вот, кстати, по всей этой впечатляющей скорости вопросы:

1. обработка "миллионов" файлов идет по одному или все ставится в один поток/пакет?

такие штучки вполне могут все ускорять и при стандартных алгоритмах - тут дело в конфигурации решения, кто сам написал, тот и имеет преимущества перед пользователями стандартных библиотек

2. морфология "локальна" - для каждого вхождения, где можно пытаться снимать неоднозначность - либо "глобальна" (можно вообще без морфологии - хранить только словоформы исходных текстов - и разбирать только запрос)

тоже сильно ускоряет, и, внешне, работает, однако будет несколько проигрывать тем системам, где будет более полный разбор - но если на это забить...

lagif:
walker, по-моему, место ей как раз здесь :)

наверное, я что-то не понимаю в этой жизни

зная некоторых из упомянутых могу сказать:

- люди они умные, но живут как 20 лет назад

- иногда именно они по сути решают судьбу денег (и не только гос)

- люди они влиятельные и довольно много народа - аспирантов и т.п, занимающегося поиском, с ними столкнется

так что это не только развлекательное, но и глубокое чтение...

(а остальным это - как там itman-то сказал)

кстати сигары после водки? - после виски или коньяка!

Для модераторов:

зря Вы перенесли тему из "Поисковых технологий" - верните обратно

itman:
Небольшое лирическое отступление:

все правильно, идеального алгоритма не существует

но зачем же так мучаться - легко предложить алгоритмы, решающие задачу с 99,9% необходимых характеристик и добавить обработку исключений

например, обрабатывать известный словарь - по дереву букв,

а неизвестные класть в хеш (с проверкой)

ну да, иногда будут коллизии, придется искать место - долго, конечно, но редко, очень редко

и все.

может быть имелась в виду потенциально полезная задача создания уникального хэша для известного словаря?

lagif:
walkerВозможно, я чего-то не улавливаю, но ведь с неба они не падают, специалисты - а учатся.

Если хотят учиться....

Человеку может не понравиться именно эта, новая для него сфера деятельности.

Дальше - в зависимости от характера - либо сразу скажет, что все плохо - либо (что гораздо хуже) будет мучаться и измучает "учителя"

И заранее, как оно будет, сказать нельзя.

Может повезет - а может нет.

Когда решение задачи понятно - все кажется очевидным - однако, какой путь верный....

lagif:
А вы куда-то спешите?

Выращивание своих специалистов - дело крайне увлекательное.

Но к бизнесу не имеет никакого отношения:

- например, для студентов - которые "выращиваются" - если процент оставшихся превышает 10% - это считается хорошо

- тем более в области SE - это не самый прибыльное занятие - квалифицированный, но не мотивированный энтузиазмом, народ легко может соскочить

- а по деньгам это будет еще больше... тем более, для верности надо брать не одного, а несколько - и время на "въезжание" - не менее года

вообщем - нереально в озвученной постановке задачи

Vyacheslav Tikhonov:
От $2000, либо же опцион. :)

2 mujaji: то есть те же деньги, вид сбоку, из расчета на 6 месяцев (с налогами)

Vyacheslav Tikhonov:
Книги есть, но на английском. Нужно быть энтузиастом.

имелось в виду книги по поиску в постановке задачи mujaji

mujaji:
так первое почти есть, третье тоже есть (я ж говорю - есть уже _готовая _ поисковая система _с разработчиками_). нужен именно второй человек - исследователь ;)

сомнительно, важна именно команда

первый-то тоже должен что-то понимать - "бывший исследователь" - это означает не никакой, а просто не занимающийся сам, но участвующий в обсуждении

привлечение только "приходящего" исследователя возможно - но работа будет делаться дольше - не меньше года

mujaji:

я был у верен, что теории поиска в информ средах у нас в технических вузах учили и учат )

не учили и не учат - в смысле специалистов не выпускают

mujaji:
насчет "таких комманд" - можете порекомендовать кого-то?

постоянно идут разные тусовочно-научные конференции - там и спрашивайте - при нормальной цене будут и нормальные предложения

mujaji:
и прокомментировать свои "20-30К" -- что в них входит и сколько?

самое главное - хороший результат при исследовании можно получить обычно не ранее чем за 6 месяцев:

1) понять постановку задачи

2) раскачка (организация трудовых связей и вхождение в трудовой ритм)

3) теоретическое изучение

4) изготовление "макета" (стенда)

5) реализация не ОДНОЙ, а НЕСКОЛЬКИХ моделей

6) выбор наилучшей

7) доводка

8) "сломать" программистов заказчика (они обычно сами очень умные), чтобы делали что скажут, а уж потом если сумеют улучшат

9) документация - лучше по стандарту - например, любому ГОСТу - она вам понадобится в случае успеха проекта через год-два

довольно важный момент - результаты должны "вылежаться", на что само по себе уходит месяц-два

можно, конечно, и быстрее - если только этим с интересом заниматься - что то я в этот вариант не верю

можно и дольше -

так что 6 месяцев - многократно проверенный оптимальный срок

лучше всего занято 3 человека (на неполный день)

как говорит kit - тим-лидер (постановщик, "здравый смысл", типа "бывший исследователь", рулит)

+ профессиональный исследователь (сека, честность, качество, задает направление)

+ программист-универсал (пишет и многократно переписывает быстро и правильно всю чушь, что ему говорят первые два)

(вы такой коллективчик соберите сначала - чтобы они друг друга сразу не прибили :)

ну, конечно, персонал - сисадмины (водопроводчики), девочки-курьеры и все такое

30 К$ (с налогами):

5000 в месяц = 2500 без налогов

довольно скромненько - трудовые деньги, не учитывалась срочность и большая заинтересованность заказчика

можно и по другому как-то, это только один из вариантов

что надо учесть - сейчас вообще-то бум и дефицит работоспособных команд - заказчик стоит стеной - и хотя, например, меня с сотоварищи этот расклад мог бы в принципе устроить - но уже до конца года занято все такими же трудовыми контрактами - смысла нет брать в новой области когда и в старых нет проблем - а поднимать цену в 2-3 раза заказчик вряд ли будет

сейчас государство в массовом порядке такие заказы раздает - а там даже и не требуется что-нибудь создавать...

mujaji:

по поводу "одного человека" - я по себе оценивал. если бы у меня был соотв. базис теоретических знаний и _полный рабочий день_, я бы сам взялся за это дело, так как ничего нереального - именно по задачам, в нем не вижу ;)

да конечно! человек сам кузнец своего счастья!

но риски-то какие!

флаг в руки - паровоз навстречу!

да и где тут раздают сразу "соотв. базис теоретических знаний"?

это ведь не те, про которые в книжках, а те, которые на собственной шкуре!

да и книжек на эту тему нет

Всего: 48