AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы

Если Вы будете давать в результатах поиска только цитаты из текстов (сниппеты), то проблем нет никаких.

Если же документы целиком, то теоретически на Вас могут наехать, но практически вряд ли. Ведь обнаружить этот факт вообще нелегко (большие поисковики не лезут в локальный поиск), а борцам за копирайт "чистых" копипастеров хватает.

Leom:
СТоп слова все равно только мешают.

Так, все-таки, какой объем стоп-словаря Вы использовали в тесте? Не влияет ли это в Вашей системе на скорость индексирования?

Простите за отвлечение, но однажды я встретил систему, где объем стоп-словаря был в тысячи слов. Разработчик объяснял это примерно также, как Вы (думаю, это просто совпадение). Кроме того, он утверждал, что для поиска глаголы вообще не нужны (не считая предлогов, союзов и пр. "мусора").

itman:
20% это минимальный из всех возможных результатов, наблюденных в природе.

Да, это очень хороший результат, если он полностью обеспечивает фразовый поиск. У нас где-то 35-40% такой полный индекс.

Вопрос к Leom: какая была методика проверки результата запросов, если сниппеты даже не выводились, как я понял? (поправьте, пожалуйста, если напутал)

Ну вот Вы уже и засомневались. Вроде, практически все, что помню, Вам рассказал. Повторяться уж не буду. Единственно, что не забывайте, что это не абстрактная информация в 1Мб, а именно русский язык.

sni, прошу великодушно извинить, но представляется, что сообщение "не понравился в целом" не совсем продуктивно. Постарайтесь в следующий раз обосновать свое мнение и/или привести примеры.

Не совсем так:

"правила раскрутки" - это и есть морфоизменения, но не морфоинформация. У нас это самое "практически" превратить задаром в полную информацию о данной словоформе, и о ее лексеме не получилось. Вот и потребовались эти 50К. Но, может, еще более дешевое решение и существует.

Может, я и путаю, но насколько я понял, в первых постах шла речь о морфоизменениях (полных лексемах). Это умещается и в 300К, как я сказал.

Дополнительные 50К нужны на морфоинформацию (часть речи, число, падеж, спряжение и т.д.).

itman:
ровно в 300 кб словарь запихнуть без искажений нельзя, потому как...

Удивлен... Вроде бы, мы с Вами договорились, как это сделать можно (300К - словарь без морфоинформации, 350 - с ней).

Пожалуй, Вы правы.

Даже если не "последовательный" разбор (уж больно круг сужаем специальными задачами), словарик в 300-350К будет с большой вероятностью в кэше процессора, ведь объем 2М теперь не редкость.

просто рассказывают про них

Увы, "пытать будут - не выдам", многого уже не помню.

Зализняк был полный, немного улучшенный: почищены ошибки и неактуальности (потом, как всегда, выяснилось, что далеко не все), и пополнен новообразованиями.

Уникальных основ получилось поменьше, чем 100 тыс. Обратите внимание: кодируются именно основы, а не первые формы, например. Здесь выигрываем на совпадении многих основ - "омосновах", так сказать. Да и про обработку приставок не забывайте.

Адресация узлов разнобитная - ровно столько, сколько надо, естественно, относительная. Сами узлы (не буквы!), кстати, тоже хорошо поддавались статистическому кодированию (по Хаффману): наш словарик тогда утаптывался часов 10-12, зато потом никаких потерь по скорости (кроме "битовых радостей", естественно, но основы-то короткие).

Вот про неявную адресацию терминальных узлов, увы, почти ничего не скажу. С прямым поиском мы тогда не прошли по скорости, но сегодня машины совсем другие, так что попробуйте.

Надеюсь, теперь Вы полностью вооружены, дерзайте.

Такой словарик можно засунуть куда-нибудь в маленькую машинку типа мобильника. Или даже для них теперь это неактуально?

Всего: 166