iseg

Рейтинг
80
Регистрация
15.12.2000
Должность
Search Engine Department Manager, Yandex
Интересы
Search Engine Development
Как писал Vyacheslav Tikhonov
По этому поводу сразу можно посмотреть:

Староватые ссылки, Вячеслав, староватые. :)

Во первых, у этих австралийских ребят вышла в 99-м году книжка Managing Gigabytes. Код для нее валяется в сети. Я от нее не в восторге, но если вам надо непременно про все знать, про что написали Зобель с Моффатом, купите ее на Амазоне.

А во-вторых на предпоследнем SIGIR-е (кажется) до Зобеля наконец дошло то, что мне стало предельно ясно в 1993-м, а именно, что сжимать надо до границам байта. По пространству проигрыш копеешный, а по скорости распаковки/запаковки - в разы быстрее.

Ссылку на статью не даю - она все равно на ACM. А предложить русскому человеку платить за контент, все равно, что в душу плюнуть :))

In experiments on large collections of data, we show two surprising results: use of simple byte-aligned codes halves the query evaluation time compared to the most compact Golomb-Rice bitwise compression schemes.

Тоже мне бином товарища Ньютона. В общем странные они ребята.

В статье http://www.dialog-21.ru/directions/Segalovich_vorprint.doc упоминается

Второй (никак не связанный с первым) способ сжатия: упорядочить позиции для каждого слова по возрастанию адресов и для каждой позиции хранить не полный ее адрес, а разницу от предыдущего. Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:

ЖЕНЩИНА: [Быт.1],[+11],[0],[+2],[+4],[+2],[+4],..

Дополнительно на разностный способ хранения адресов накладывают какой-нибудь простенький способ упаковки: зачем отводить небольшому целому числу фиксированное "огромное" количество байт, ведь можно отвести ему почти столько байт, сколько оно заслуживает. Здесь уместно упомянуть коды Голомба или встроенную функцию популярного языка Perl: pack("w").

Как писал trink
Щеки они действительно раздувают в словах синонимах к слову "выдающееся"

Уважаемый trink!

Мы очень щепетильно относимся к саморекламе. А именно, мы ее глубоко презираем. Нельзя ли привести список синонимов слова "выдающееся", которые сотрудники Яндекса использовали применительно к Яндекс.Новостям? Я самостоятельно не смог найти таких примеров.

Илья Сегалович,

технический директор,

Яндекс

Как писал Vyacheslav Tikhonov
Для справки - Яндекс Ньюз ничего особо не кластеризует - там идет обычный экспорт в XML заранее рубрицированных источником новостей.

Странное утверждение. Я не понял его смысла.

Вячеслав, проясните пожалуйста, что Вы понимаете под "кластеризацией" и "особой кластеризацией", и чем первая отличается от второй?

Можно где-нибудь посмотреть на "особую"?

Как писал Sam
с бОльшими аппетитами (Google provides ... a limit of 1,000 queries per day)

Вы наверное хотели сказать "с мЕньшими аппетитами" ?

Гугль: максимум 1000 страниц

по максимум 10 ссылок на страницу

Яндекс: максимум 200 страниц по максимум 20 групп на страницу по максимум 3 ссылки на группу.

1000*10 = 10000

200*20*3 = 12000

Надо ли это подробнее объяснять?

Илья

Как писал Vyacheslav Tikhonov
Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)

Специфика нашей морфологии достаточна чтобы понять что это Яндекс. А все остальные проблемы все равно техническим способом непобедимы (в смысле, если захотят своровать то и своруют, как не защищайся). Поэтому уповать надо на юридически-моральные. :)

Как писал AiK
Не понравилось всё остальное. Отсюда вопрос к Илье: недружественность по отношению к владельцам виртуальных серверов (абсолютно непонятная политика лицензирования, да и цена в 80$ за Мб заставляет надолго задуматься...) - это "политика партии" или можно попытаться вести конструктивный диалог с Алексеем (он вроде крайним выбран)?

Запоздалый ответ. :) Но все же.

Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.

Дружественность его тоже повысилась. По крайней мере мы очень старались этого добиться.

Как писал Keva
И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.

Насчет ощутимо чище.

Я тогда, в апреле проделал некоторую исследовательскю работу. Результат опубликовал. см. здесь

http://company.yandex.ru/articles/iseg-las-vegas.html

Кроме небольшого пиара собственного метода :), там еще реализована следующая техника и идея по "сравнению2 морфологий:

1. Взять все известные и распространяемые публично несловарные русские морфологии (4 штуки: "майстем", "стемка", "сноуболл", "лингвистика")

и применить их так сказать к "дневному кролу", где "дневной крол" моделируется размеченным корпусом.

2. Собрать все "экстра"- и "потерянные" ассоциации для каждого алгоритма. Мы предполагаем, что "руками" лингвисты ошибок не сделали, и что ассоциация, созданная руками, "как бы на 100% верна", хотя бы для и в рамках данного корпуса.

3. Затем дважды их отфильтровать: по частоте в корпусе (убрать слишком редкие и слишком частые) и по логу яндекса (оставить только "интересные" пользователю и поисковой системе)

4. Затем оставшиеся потерянные и добавленные каждым алгоритмом

ассоциации (в статье они называются Pair of Potential Morphological Variants -- PPMV) обработать "алгоритмом определния семантической близости слов" (изобретение мое :)).

"Семантическая близость" двух слов

= число общих хостов в первых тридцатках в результатах поиска в поисковой системе без морфологии (например Google :))

Чем выше этот показатель для приобретенных пар и ниже для утерянных - тем лучше работает несловарная морфология.

5. По обоим показателям mystem занял уверенное первое место. На втором месте snowball и вплотную за ним stemka ("глубокий" вариант). На третьем Linguistica. Хуже всех консервативная стемка.

Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера".

Как писал Keva
Да, это, действительно, очень хорошо :)

... только для полноты поиска. Найти же конкретные варианты написания невозможно даже, задав слово в кавычках.

Как писал Polite Moose
andre, У них сегодня ДР. Пьянка видимо... :) :)

Если бы :(

Всего: 442