Чтож вполне возможно, Гугл как-то подпротух. Такое ощущение, что Яха ищет, как миниум, не хуже.
а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.
а что автоматика не поддерживается? а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+? не лучше ли в такм случае продать какое-нибудь масштабируемое решение.
И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?
Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.
точный, целый, спорный, фиолетовый....
мне спать пора! счастливо.
Вот на первой странице
если решение неточное, то говорить о целом словаре не приходится, не так ли? по-крайней мере, я так подумал. а насчет взбаламутил, это вовсе не наезд, не надо так принимать близко к сердцу :-)
тем, что у Ильи в статьи говорилось про эмпирическое неточное решение, а ты мучал народ вопросом, как запихнуть словарь в тот же объем, но чтобы он там точно хранился :-)
Да мы это уже все более или менее поняли, просто Зодчий невнимательно прочел статью и взбаламутил народ. А МакИлроя я уже в оригинале прочел, слава богу не только в Яндексе есть полки :-)
Ну что самое смешно, что ровно в 300 кб словарь запихнуть без искажений нельзя, потому как где-то 280-290кб это словарь запакованный префиксным кодом с правилами раскрутки суффиксов. А вот в 350-400 при очень большом желании можно.
нет, ну индексирует бесспорно исключительно быстро. но тут возникают два естественных вопроса:
1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.
2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?
да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)
ыыых хороши сигарские кубаны апосля стакана водки. (глыбоко затянулся и шумно выдохнул)
136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?
Весьма занимательное чтение, милицейские протоколы отдыхают, напр.
Отвечая на этот вопрос, Кузнецов сослался на лингвиста, известного своими работами по семантике, после чего все немного приуныли.
А, вообще, зачем Вы сыпете соль на сахар? Идеи технопарков не просто устарели, они прям-таки протухли. Впрочем, как и сам термин ИИ. И кажется участники этой конференции ощущают это.
PS: да и все эти наработки по-большому счету никому не нужны. везде и всегда нужно слабать нечто тривиальное кое-как работающее и быстренько показать начальству. при этом главное подстроить софт, чтобы он правильно работал на примерах начальника.