- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
А что есть качество -- имеется ввиду релевантность или что? Ну в релевантности то у всех практически одинаковые алгоритмы тут как раз ничего революционного нет
Если скорость то я выше описывал как
Странный вопрос, это вы писали о качественном поиске, вам и расшифровывать, что вы в это понятие вкладываете, именно об этом я вас и спросил, заодно в сравнение с такими же метриками для других поисковиков.
Стандартные метрики:
http://en.wikipedia.org/wiki/Information_retrieval#Performance_measures
Одной скорости тут мало :)
Странный вопрос, это вы писали о качественном поиске, вам и расшифровывать, что вы в это понятие вкладываете, именно об этом я вас и спросил, заодно в сравнение с такими же метриками для других поисковиков.
Стандартные метрики:
http://en.wikipedia.org/wiki/Information_retrieval#Performance_measures
Ну и что там про качество? А какое качество у
- dtsearch
- google
- isys
- verity
и т.д.
Если знаете гле почитать скажите.
Качество вообще говоря для конкретного прикладного применеия зависит от многих факторов и больщей частью прикладных а не системных, как например тот же pagerank гугля это уже фактор прикладной.
А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке
Одной скорости тут мало :)
Оно то конечно мало но скорость далеко не последняя характеристика. Если я могу на одном компе индексить и искать по терабайту инфы а тот же dtsearch умирает после 2 млн файлов и 100 гиг инфы, то говорит это о чем?
Да о том что в одном случае если надо индексить 5 тер то надо 50 компов, а во втором ( в нашем случае) нужно всего 5 компов. А если учесть что это компы стоящие в инет и даже с учетом опта вместе с трафиком один комп всеже в $100 в месяц будет обходиться, то вопрос сколько платить за оборудование
100 *50 = $5000 в месяц
Или $100*5 = $500
Играет ну очент существенную роль. Особенно в сервисах ориентированных на интернет -- у нас к концу апреля запустится ряд инет сервисов по поиску и мы сможем предложить очень дешеевые цены именно из за наши скоростей и минимизации затрат на железо.
Еще пример -- к словам что скорости мало. У одного из наших клиентов стояла задача индексации 10 тер инфы причем раз в месяц -- по лпкальной сети и индексации с нуля ( в разных офисах). Так вот хотя они купили всего 3 месяца назад конкурентов и нормально заплатили в итоге перешли на нас, так как с учетом масштабирования всего 5 компов потянули эту задачу -- по 2 терра на комп было.
Так что в том что скорость не критична я позволю себе не согласиться
http://www.searchinform.com/site/ru/index.htm
P.S Сейчас наша тестовая лаборатория завершиоа уже комплексные тесты и на следующей неделе на сайт будут выложены не только тесты но и инструменты с помощью которых любой жедлающий сам сможет протестить скорость и не только инлдексирования но и
-- поиска по словам
-- фразового поиска с расстоянием
Поиск идет пакетно -- мы тестили на 1000 запросах на базах
10 гиг
20 гиг
40 гиг
80 гиг
132 гига
И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.
да уж вы очень сильно под гугл аппалайенс копаете :-) они вон ведь какие деньги берут за решение на 100 тысяч документов :-)
да уж вы очень сильно под гугл аппалайенс копаете :-) они вон ведь какие деньги берут за решение на 100 тысяч документов :-)
Это в смысле то что google mini или что? Ну так там вообще ну очень дорого. У нас же нет никаких лограничений
Ну и что там про качество? А какое качество у
- dtsearch
- google
- isys
- verity
и т.д.
Если знаете гле почитать скажите.
Google и Verity участвоали в TREC-5 и TREC-6 соответвенно. См. http://trec.nist.gov
Исследовательские проекты на базе dtsearch - в TREC-12, может еще когда. Смотрите подробне на выше указаном сайте.
А если под качеством поиска в корпоративной сети понимать релевантность то с ней у нас все с порядке
Да я не против, только как докажите ? :)
И будут в том числе и графики падения скорости поиска и расчет до чего упадет на террабайте. Кому будет интересно -- милости просим если чего то наш саппорт поможет разобраться с утилитами для генгерации тестов.
так тесты нужны в сравнении с другими системами, а не сами по себе ☝
... Поиск идет пакетно -- мы тестили на 1000 запросах на базах ...
Вот, кстати, по всей этой впечатляющей скорости вопросы:
1. обработка "миллионов" файлов идет по одному или все ставится в один поток/пакет?
такие штучки вполне могут все ускорять и при стандартных алгоритмах - тут дело в конфигурации решения, кто сам написал, тот и имеет преимущества перед пользователями стандартных библиотек
2. морфология "локальна" - для каждого вхождения, где можно пытаться снимать неоднозначность - либо "глобальна" (можно вообще без морфологии - хранить только словоформы исходных текстов - и разбирать только запрос)
тоже сильно ускоряет, и, внешне, работает, однако будет несколько проигрывать тем системам, где будет более полный разбор - но если на это забить...
так тесты нужны в сравнении с другими системами, а не сами по себе ☝
Следующие системы тестировались и у них скорость в 4-10 раз хуже
- Dtsearch (самая быстрая всего в 4 -- 4,5 раза медленней нас :)
- Isys
- Yandex desktop
- Google desktop 3
- Ищейка
- Архивариус
Эти системы имеют триальную или фре версию поэтому без проблем их протестить. А вот Verity например триалки не имеет и хоть мы тестили эту систему, но так как не являемся клиентами verity то публиковать не имеем права.
http://www.searchinform.com/site/ru/index.htm
Вот, кстати, по всей этой впечатляющей скорости вопросы:
1. обработка "миллионов" файлов идет по одному или все ставится в один поток/пакет?
Про что вопрос? И причем в скорости поиска обработка файлов?
2. морфология "локальна" - для каждого вхождения, где можно пытаться снимать неоднозначность - либо "глобальна" (можно вообще без морфологии - хранить только словоформы исходных текстов - и разбирать только запрос)
У нас можно искать и с морфодлогие и без -- еслти загрузить прогу то это становится сразу видно
Leo
--------
http://www.searchinform.com/site/ru/index.htm
Про что вопрос? И причем в скорости поиска обработка файлов?
вопрос был о скорости индексирования,
хотя и про поиск у Вас проскочило "пакет" из 1000 запросов - это можно воспринять, что Вы запускаете один запрос на 2000-3000 слов
У нас можно искать и с морфодлогие и без -- еслти загрузить прогу то это становится сразу видно
вопрос был о том - производится ли индексирование с морфологией с учетом локального контекста либо морфологически разбирается только запрос
... "пакет" из 1000 запросов - это можно воспринять, что Вы запускаете один запрос на 2000-3000 слов ...
- а что, запускать "один запрос на 2000-3000 слов" и потом разбивать его результаты на 1000 частей - это с какой-то точки зрения более удобно (быстро, эффективно), чем производить 1000 "независимых" поисков (по 2-3 лова)?