Комментарии - itman - Профиль вебмастера - Форум об интернет-маркетинге

война гигантов?

3 марта 2006, 08:35

Чтож вполне возможно, Гугл как-то подпротух. Такое ощущение, что Яха ищет, как миниум, не хуже.

Вышел SearchInform 2.0.

3 марта 2006, 08:33

а что dtsearch как-то осбенно эффективен? сравните лучше с google desktop или персональным поиском Яндекса.

Leom:
Реально ищет в 3-4 раза быстрей чем к примеру dtsearch. Только в отличии от времени индексирования тут так корректно время нельзя измерять -- надо через утилиту которая будет заполнять поля в проге и кликать на поиск.

а что автоматика не поддерживается? а скорость поиска вещь важная, зачем вам быстро индексировать такое количество информации, если время выполнения запроса будет 1 минута+? не лучше ли в такм случае продать какое-нибудь масштабируемое решение.

Это одно из преимуществ что маленький индекс. Из за этого в том числе и поиск быстрей. А фразовый поиск с расстоянием безуслвоно поддерживается.

И все у вас умещается в 20% ? а запрос "to be or not to be" у вас можно найти? не будет ли этот запрос эквивалентен запросу "be be" ?

Такой тест никому не нужен -- интересно тестить на реальгых данных.

Вот тут Вы принципиально не правы. Попробуйте сначала создать синтетическую коллекцию такого же объема, как и реальные данные. Протестируйте скорость создания индекса и время поиска. Вы приятно удивитесь насколько результаты будут похожи. Возможно даже практически идентичны. Даже если Вы возьмете Зобелевский finnegan.

Размер словаря

2 марта 2006, 23:50

ЗодчийТеней:
Точный и целый разные вещи, нетакли? А насчет неточьности решения и «целого» словаря при этом, спорный вопрос

точный, целый, спорный, фиолетовый....

мне спать пора! счастливо.

Размер словаря

2 марта 2006, 23:11

Вот на первой странице

Как можно в такой объем запихнуть целый словарь да еще и с морфологией? Кто-то может прокомментировать?

если решение неточное, то говорить о целом словаре не приходится, не так ли? по-крайней мере, я так подумал. а насчет взбаламутил, это вовсе не наезд, не надо так принимать близко к сердцу :-)

Размер словаря

2 марта 2006, 23:04

ЗодчийТеней:
разжевали нарешти :-)

ну нифигаж себе наезды, а чем взбаламутил позвольте узнать? вопросом как удалось запихнуть словарь с морфологией в 300Кб?

тем, что у Ильи в статьи говорилось про эмпирическое неточное решение, а ты мучал народ вопросом, как запихнуть словарь в тот же объем, но чтобы он там точно хранился :-)

Размер словаря

2 марта 2006, 22:46

Да мы это уже все более или менее поняли, просто Зодчий невнимательно прочел статью и взбаламутил народ. А МакИлроя я уже в оригинале прочел, слава богу не только в Яндексе есть полки :-)

Ну что самое смешно, что ровно в 300 кб словарь запихнуть без искажений нельзя, потому как где-то 280-290кб это словарь запакованный префиксным кодом с правилами раскрутки суффиксов. А вот в 350-400 при очень большом желании можно.

Вышел SearchInform 2.0.

2 марта 2006, 14:13

нет, ну индексирует бесспорно исключительно быстро. но тут возникают два естественных вопроса:

1) как быстро потом ищет? в принципе 2.8 миллионов доков размером в 20к примерно эквивалентны 16-18 млн вебовских страничек.

2) подозрительно маленький какой у вас индекс, это, наверное, без стоп-слов? или без координатной информации?

да, собственно забыл сказать. чтобы проверить скорость индексации можно использовать синтезированные текстовые документы. собираете статистику по частоте длинн документов и частоте появления последовательных пар слов и вперед :-) хоть десять террабайт можно сгенерить. сответствующая программка пишется быстро :-)

Разработчикам интеллектуальных систем посвящается...

2 марта 2006, 13:33

lagif:
walker, по-моему, место ей как раз здесь :)

ыыых хороши сигарские кубаны апосля стакана водки. (глыбоко затянулся и шумно выдохнул)

Вышел SearchInform 2.0.

2 марта 2006, 13:18

136 гигабайт чистого текста? или док файлов? И какова потом скорость поиска? Минуту на запрос?

Разработчикам интеллектуальных систем посвящается...

1 марта 2006, 07:16

Весьма занимательное чтение, милицейские протоколы отдыхают, напр.

Отвечая на этот вопрос, Кузнецов сослался на лингвиста, известного своими работами по семантике, после чего все немного приуныли.

А, вообще, зачем Вы сыпете соль на сахар? Идеи технопарков не просто устарели, они прям-таки протухли. Впрочем, как и сам термин ИИ. И кажется участники этой конференции ощущают это.

PS: да и все эти наработки по-большому счету никому не нужны. везде и всегда нужно слабать нечто тривиальное кое-как работающее и быстренько показать начальству. при этом главное подстроить софт, чтобы он правильно работал на примерах начальника.

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, если ваша email-рассылка попала в спам

itman