а откуда я знаю, я же не собираюсь туда идти :-)
.. ...
Ну у меня было подозрение, что речь идет о шинглах, полученных в результате обработки множества текстов, но я не был уверен. Я, гляжу, спрос на данные подобного рода растет.
Was ist das?
То есть примерно 170 тысяч среднестатистических HTML страничек, объем чистого текста 200-400 кб. Индекс гарантировано влезает в память. Мда... тот же Яндекс-сервер, например раза в 3-4 должен быстрее индексировать. С другой стороны какой-нибудь гугль-мини такой объем чисто теоретически (с лицензионной точки зрения) не будет обрабатывать. И тот же датапарк примерно с такой же скоростью индексирует, может даже медленее. И аспсик у меня 2 гига примерно несколько дней индексировал, правда машинка был гораздо слабее: PII, 500 Mb. Но, видимо, порядок индексации по скорости тот же.
Кстати, а у Вас на Java точно был включен JIT? Вообще, с точки зрения потенциально неэкономного расхода памяти писать поисковый движок на джаве не самая удачная идея.
Вообще, это все плюс-минус. Такие факторы, как PR, выделение жирным, курсиво итд должны чуть-чуть увеличивать ключевого слова. PR чуточку побольше чем жирный шрифт ИМХО. PR, к тому же, ИМХО опять-таки разумнее уже прибавлять к конечному весу страницы, посчитанному с учетом вхождения ключевых слов и их близости. А вот близость слов, плотность их расположения в пассаже, ИМХО опять-таки поважнее будет.
Вы читали документ Яндекс с описанием их алгоритма ранжирования?
Опять-таки по поводу морфологии: ИМХО (и Саша Садовский, которые в вопросах релевантности попродвинутее меня будет со мной согласился, да и И. Сегалович, кажется, тоже так считает), что точные вхождения нужно чуточку приоретизировать.
Спасибо за ссылочку, посмотрю на досуге. Некоторые аспекты оптимизации меня очень даже интересуют.
Pike у конвеера хорошая производительность, но с задержками. Иногда нужна не производительность, а респонсивность. Австралийцы очень дружелюбные и милые люди, но они не склонны решать чужие проблемы, пока их не "пинаешь" достаточно регулярно. Они не по злобе это делают, они просто забывают. Если лично Вас, мой не вполне обоснованный наезд, обидел, я приношу свои извинения и предлагаю закрыть эту тему.
По поводу регистратора: мне ответила служба поддержки, домен стоит 9 евро, но с немецких нерезидентов они снимают fee в размере 39 евро. То есть это уже не совсем дешево получается.
Они не ленивые! Они расслабленные. Производительность труда-то может быть и большая, но задержки при решении проблем порядочные. Вы лучше скажите, знаете ли что-нибудь про упомянутого мной регистратора или нет :)
а вот Cheap-DomainRegistration.com как раз в списке деника точно отсутствует. по-крайней мере не могу найти ни под каким соусом, так что кто работал много с немцекими доменами, подскажите, пожалуйста.