http://www.searchinform.com/site/ru/index.htm
Правда сие строго под виндой. Но ничего не мешает поствить рядом сервачек под виндой. С такими десткими объемами он справится легко. А его стоимость вряд ли более 110 баксов в месяц будет.
Причем данное решение в корне отличается от остальных -- благодаря поиску документов похъожих по содержанию. Можно искать сракзу и по абзацу и по странице и т.д.
А заодно отсеивать дубли при наполнении базы.
а в том что касается библиотек -- тоже опыт есть -- читайте здесь
http://www.searchinform.com/site/ru/main/search-inform-projects-biblioinform.htm
Кому интересно работа в динамично растущей компании и реального лидера в поисковых технологиях в СНГ -- пишите лично мне.
Толковые программисты меня очень интересуют.
Центр разработок и соответственно весь development team находится в Минске, а в Москве у нас сэйловый офис -- куда тоже кстати велкам только уже не программистов а менеджеров.
Приниципы работы у нас западные включая stock options для сотрудников которые ценны для компании.
Чего о нас пишут в бумажной прессе найти легко через инет.
Мое мыло leo собака softinform точка com
Также с радостью прочту Ваше резюме и информацию о том что и как вам удалось сделать. Пишите на leo собака softinform точка com
Только тем что он в принципе не работает как впрочем и все чисто частотные алгоритмы. надо отслеживать еще порядок слов и многое другое. И даже если применять статистику то нельзя наиболее часто встречающиеся слова в документе -- как правило это будут общеупотребительные слова.
Вообще говоря интеллектуальное решение данной проблемы уже есть и успешно работает в корпоративном секкторе -- http://www.searchinform.com/site/ru/index.htm
Пишите лично мне leo собака softinform точка com
Скорость поиска на таком маленьком объеме как полтера у нас будет несколько уникальных запросов в секунду, ну а если запросы будут повтряющиеся то сработает кэш -- там вообще мгновенно.
Скорость индексайии от 10 до 30 гиг в час.
На такие объемы и задачи даже с учетом тюнинга под Ваши нужды в суммы менее 100К с нами точно впишетесь и запустим вам думаю все под ключ за срок от 1 недели до 2 месяцев, если все основные требования вы в посте изложили
Базы «11.1», «21.85», «41.17», «83.22» – это англоязычные патенты в формате HTML. Документы физически хранятся в архивных файлах формата ZIP по 5000 – 10000 файлов в одном архиве.
База «132.26» кроме патентов в HTML на «83.22» Гб также содержит информацию из тестовых баз форматов (DOC, RTF, PDF) и тексты «10.7».
Не буду грузить конфу копией всего описания -- оно доступно на сайте и вот прямая ссылка http://www.searchinform.com/site/ru/main/search-inform-indexing-speed-tests.htm
Кстати средний размер html не 30 кб а 10 кб. Но естественно на 'fnfgt индескирования это уже все в зипе например по 5000 файлов.
С прикладной точки зрения ничего не мешает пауку после скачивания страницы ложить ее в архив.
Заявленные скорости безусловно подразумевают средне-нормальные условия. А если довести дло обсурда, то можно создать 100 миллионов файлов по 10 байт (по одному слову в файле) так там только винда эти файлы бцдет сканировать часа 3, хотя инфы то всег 1 гиг
Только сие же уже относится не к индескированию а к кривым рукам прикладного программиста который такое утворил.
Если ищете не бесплатное, то данное решение будет для вас оптимальным
Господа у кого в Москве трафик в инет неоплачиваемый -- типа стрима?
Я бы накачал гиг 300 в архиве на свое серваке в америке и дал бы линки скачать а потом бы с удовольствием приехал в гости с винтом на 300 гиг
Качать планирую из инет -- например все софт директории или все бибьлиотеки и т.д., а далее архивировать и только htm без графики
Реально 300 гиг архивов это будет более полутра терра если разорхивировано инфы и порядка 300-500 млн страниц.
Очень хочу прогнать такой тест чтобы испытать на прочность -- потом готов запостить сюда результаты.
Кто готов помочь -- пишите
leo собака softinform точка com
Тесты уже выложены на сайт.
http://www.searchinform.com/site/ru/main/search-inform-indexing-speed-tests.htm
Leo
---------------
Про что вопрос? И причем в скорости поиска обработка файлов?
У нас можно искать и с морфодлогие и без -- еслти загрузить прогу то это становится сразу видно
--------