Староватые ссылки, Вячеслав, староватые. :)
Во первых, у этих австралийских ребят вышла в 99-м году книжка Managing Gigabytes. Код для нее валяется в сети. Я от нее не в восторге, но если вам надо непременно про все знать, про что написали Зобель с Моффатом, купите ее на Амазоне.
А во-вторых на предпоследнем SIGIR-е (кажется) до Зобеля наконец дошло то, что мне стало предельно ясно в 1993-м, а именно, что сжимать надо до границам байта. По пространству проигрыш копеешный, а по скорости распаковки/запаковки - в разы быстрее.
Ссылку на статью не даю - она все равно на ACM. А предложить русскому человеку платить за контент, все равно, что в душу плюнуть :))
In experiments on large collections of data, we show two surprising results: use of simple byte-aligned codes halves the query evaluation time compared to the most compact Golomb-Rice bitwise compression schemes.
Тоже мне бином товарища Ньютона. В общем странные они ребята.
В статье http://www.dialog-21.ru/directions/Segalovich_vorprint.doc упоминается
Второй (никак не связанный с первым) способ сжатия: упорядочить позиции для каждого слова по возрастанию адресов и для каждой позиции хранить не полный ее адрес, а разницу от предыдущего. Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:
ЖЕНЩИНА: [Быт.1],[+11],[0],[+2],[+4],[+2],[+4],..
Дополнительно на разностный способ хранения адресов накладывают какой-нибудь простенький способ упаковки: зачем отводить небольшому целому числу фиксированное "огромное" количество байт, ведь можно отвести ему почти столько байт, сколько оно заслуживает. Здесь уместно упомянуть коды Голомба или встроенную функцию популярного языка Perl: pack("w").
Уважаемый trink!
Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.
Илья Сегалович,
технический директор,
Яндекс
Странное утверждение. Я не понял его смысла.
Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?
Можно где-нибудь посмотреть на "особую"?
Вы наверное хотели сказать "с мЕньшими аппетитами" ?
Гугль: максимум 1000 страниц
по максимум 10 ссылок на страницу
Яндекс: максимум 200 страниц по максимум 20 групп на страницу по максимум 3 ссылки на группу.
1000*10 = 10000
200*20*3 = 12000
Надо ли это подробнее объяснять?
Илья
Специфика нашей морфологии достаточна чтобы понять что это Яндекс. А все остальные проблемы все равно техническим способом непобедимы (в смысле, если захотят своровать то и своруют, как не защищайся). Поэтому уповать надо на юридически-моральные. :)
Запоздалый ответ. :) Но все же.
Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.
Дружественность его тоже повысилась. По крайней мере мы очень старались этого добиться.
Насчет ощутимо чище.
Я тогда, в апреле проделал некоторую исследовательскю работу. Результат опубликовал. см. здесь
http://company.yandex.ru/articles/iseg-las-vegas.html
Кроме небольшого пиара собственного метода :), там еще реализована следующая техника и идея по "сравнению2 морфологий:
1. Взять все известные и распространяемые публично несловарные русские морфологии (4 штуки: "майстем", "стемка", "сноуболл", "лингвистика")
и применить их так сказать к "дневному кролу", где "дневной крол" моделируется размеченным корпусом.
2. Собрать все "экстра"- и "потерянные" ассоциации для каждого алгоритма. Мы предполагаем, что "руками" лингвисты ошибок не сделали, и что ассоциация, созданная руками, "как бы на 100% верна", хотя бы для и в рамках данного корпуса.
3. Затем дважды их отфильтровать: по частоте в корпусе (убрать слишком редкие и слишком частые) и по логу яндекса (оставить только "интересные" пользователю и поисковой системе)
4. Затем оставшиеся потерянные и добавленные каждым алгоритмом
ассоциации (в статье они называются Pair of Potential Morphological Variants -- PPMV) обработать "алгоритмом определния семантической близости слов" (изобретение мое :)).
"Семантическая близость" двух слов
= число общих хостов в первых тридцатках в результатах поиска в поисковой системе без морфологии (например Google :))
Чем выше этот показатель для приобретенных пар и ниже для утерянных - тем лучше работает несловарная морфология.
5. По обоим показателям mystem занял уверенное первое место. На втором месте snowball и вплотную за ним stemka ("глубокий" вариант). На третьем Linguistica. Хуже всех консервативная стемка.
Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера".
... только для полноты поиска. Найти же конкретные варианты написания невозможно даже, задав слово в кавычках.
Если бы :(