Поисковые движки

0

Игорь

1 апреля 2003, 13:21

18811

Коллеги, помогите подобрать партнера ))

нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты)

я накопал некоторое количество - но испытываю трудности с их сопоставлением - как с точки зрения функциональности, так и с точки зрения удобности партнерства

Буду благодарен за советы, подсказки или оценки

Пока я нашел в виде продуктов отечественной разработки 8 движков

1. Яndex.Site

2. программы от Stack Ltd

3. Интегрум Техно Артефакт

4. Гарант-парк интернет Content Opimiser

5. Netlogic MorfoIlias

6. Система Irbis - неизвестно чья :))

7. Галактика ZOOM

8. система от НИВЦ МГУ

администратор форума подсказал еще siteMeta от МЕТА и поисковик, доступный на Finds.ru.

Есть мнения о качестве систем и т.п.?

K

80

Keva

3 апреля 2003, 10:11

#1

нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты)

Вот это - правильный подход! Кроме шуток. Просто по той причине, что отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.

я накопал некоторое количество - но испытываю трудности с их сопоставлением - как с точки зрения функциональности, так и с точки зрения удобности партнерства

Попробую прокомментировать:

1. Яndex.Site

Стабильно работающий, добротный продукт. Работает не сильно быстро. Применяется в массе мест. Есть халявная версия. Лицензия для использования - достаточно дорогая.

2. программы от Stack Ltd

С точки зрения качества поиска можно оценить их статику на www.turtle.ru, динамику - по ссылке с их сайта. Разработка Димы Крюкова, автора первой версии Рамблера, при участии Олега Бартунова и Жени Родичева. Лингвистика приобретена моя, однако, похоже, Родичев вмешивался туда, так что качество оной упало.

3. Интегрум Техно Артефакт

Поисковая машина, выросшая из проекта "ИПС Агама", она же - "ИПС МИРС", она же - далее - "ИПС Артефакт". Заточена под работу с модерируемыми объемами информации. Руководитель разработки и идеолог - Владимир Пархоменко, мой учитель. Высокое качество поиска по коллекциям документов. Недостаток - система слишком сильно заточена была при разработке на Win32.

4. Гарант-парк интернет Content Opimiser

"Плюха" для Oracle, весьма тяжелая и дорогая. Лингвистика - изначально - моя, однако в нее тоже лазили руками. Словник - на уровне 1994 года

5. Netlogic MorfoIlias
6. Система Irbis - неизвестно чья :))

Без комментариев. Не знаю.

система от НИВЦ МГУ

Как и любая система от госструктур, наполнена блестящими научными идеями, и неплохо должна работать на объемах данных, составленных авторами системы. На реальных данных "блестящие идеи", как правило, не работают.

siteMeta от МЕТА

Украинская (не российская!) разработка. Качество поиска - см. http://www.meta.ua/, лингвистика - моя, с постоянной поддержкой и пополнением словарей. Есть халявная версия, коммерческие версии дешевле, чем Яndex.site. Внедрения в госструктурах Украины, в том числе - поиск на портале кабмина Украины.

Есть мнения о качестве систем и т.п.?

Есть. Идеальный вариант - это система либо с Информатиковской, либо с моей лингвистикой для русского языка (лучшие анализаторы), и с желанием разработчиков сотрудничать с тобой, докручивать систему под твои нужды, а не предлагать типа "коробочного продукта" as is. Особенно опасайся, если тебе начинают говорить, что при поиске используется какой-либо тезаурус, кроме составленного специально для твоих нужд, словари синонимов, а особенно - АХТУНГ!!! - "семантика". Скажут про семантику - беги :)

Так что реальный выбор у тебя - либо Яndex.site, либо софт от Меты.

С уважением, Keva.

С уважением, Андрей Коваленко aka Keva

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

3 апреля 2003, 10:23

#2

я накопал некоторое количество

У есть меня более полный список:

http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156

с точки зрения удобности партнерства

Это как надо понимать? :)

Есть мнения о качестве систем и т.п.?

Опишите задачу подробней:

1. Что кроме непосредственно поиска нужно и с каким приоритетом?

(чистка дублей, группирование выдачи, тематическая классификация, настройки поискового интерфейса, права доступа - направлений миллион .... и т.д. и т.п.)

2. Количественные показатели задач (размер коллекции, число пользоветелей, время обновления)

2. Качественные (форматы, способ хранения данных)

и т.д. и т.п.

Илья

P.S.

А почему в списке нет иностранцев? Или главная задача - "чтобы было и чтобы было дешево"?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

3 апреля 2003, 10:41

#3

Как писал Keva
отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.

Это не совсем так.

Русские морфологии в западных системах растут из нескольких мест.

1. Verity и UltraSeek (позже Inktomi, а теперь тоже Verity) закупались в свое время у Европейского Ксерокса (Xerox Research Center Europe в Гренобле, точнее их коммерческий отдел - LinguistX). Алгоритмы там стандартные выросшие из PC-KIMO, то есть заточенные под все морфологии на свете. Автор трансдьюсера - Картунен.

Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.

2. Fast. (он же Lycos, а теперь уже и Overture). Там морфология другая, она похоже качественней. Кто ее делал, я не знаю. Сам Фаст очень быстрая и масштабируемая искалка. Если нужно поставить что-то для индексации какого-нибудь Веба то реальный выбор только между продуктами Альтависты и Фастом.

3. Еще есть финны, которые торгуют русской морфологией для поисковых систем. www.lingsoft.fi

Вот пожалуй и все. (Кстати, Андрей, а в руссифицированном Excalibur-е чья морфология - не твоя ли?)

Цены западных систем (навскидку):

Verity, Excalibur, Autonomy, Recommind, Fast - все от 100-150 тысяч и выше.

Google-In-The-Box встанет не дешевле (морфологий там нет в принципе: у них такая идеология)

Ultraseek - единственный недорогой масштабируемый по цене продукт, похожий по лицензионной политике на Я-Сайт. Но все равно подороже.

Подробнее: www.searchtools.com

Илья

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

3 апреля 2003, 10:54

#4

Привет, Илья!

Это не совсем так.

Есть и такое мнение :)

1. Verity и UltraSeek (позже Inktomi, а теперь тоже Verity) закупались в свое время у Европейского Ксерокса (Xerox Research Center Europe в Гренобле, точнее их коммерческий отдел - LinguistX). Алгоритмы там стандартные выросшие из PC-KIMO, то есть заточенные под все морфологии на свете. Автор трансдьюсера - Картунен.

Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.

...но качество лингвистических данных... Как бы это сказать... Ну, несколько хромает :) Кроме того, насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов, и здесь это тоже сыграло роль.

3. Еще есть финны, которые торгуют русской морфологией для поисковых систем. www.lingsoft.fi

...а этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить

Нет, Илья, в Экскалибуре - не моя. Это Игорь. Еще Информатиковских времен.

Андрей.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

3 апреля 2003, 11:58

#5

Oops - что-то отказалась система публиковать сообщение,

стерев набранное - послал не то...

Хорошо, что такое не в первый раз - сохранил в буфере.

Как писал Keva

Вот это - правильный подход! Кроме шуток. Просто по той причине, что отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.
...
Как и любая система от госструктур, наполнена блестящими научными идеями, и неплохо должна работать на объемах данных, составленных авторами системы. На реальных данных "блестящие идеи", как правило, не работают.
...
С уважением, Keva.

Keva, Keva, ...

Ах как легко и просто плюнуть походя.

Типа "сам не читал, но считаю своим долгом заявить..."

Уж морфология-то у нас есть и по качеству не хуже

(имени Ж.Аношкиной), по-медленнее, конечно, чем от Keva,

но более чем достаточна для поиска по локальному сайту.

Доказывать что-то бессмысленно, но если работу покупают - значит

это кому-нибудь нужно...

Как писал Keva

Есть. Идеальный вариант - это система либо с Информатиковской, либо с моей лингвистикой для русского языка (лучшие анализаторы), и с желанием разработчиков сотрудничать с тобой, докручивать систему под твои нужды, а не предлагать типа "коробочного продукта" as is.

Так что реальный выбор у тебя - либо Яndex.site, либо софт от Меты.

С выводом по софту для локального сайта согласен,

если требуется только морфология.

Как писал Keva

Особенно опасайся, если тебе начинают говорить, что при поиске используется какой-либо тезаурус, кроме составленного специально для твоих нужд, словари синонимов, а особенно - АХТУНГ!!! - "семантика". Скажут про семантику - беги :)

Те кто реализовал только морфологию (и хорошо реализовал)

- что достаточно в большинстве случаев - уверены, что

ничего другого быть не должно.

Но задачи бывают разные, и правильный ответ - для каждой

задачи нужен свой метод (одной морфологией все не сделать).

Более того, Игорю (судя по всему из города Питера),

стоит учесть, что и конкуренты его придут на тендер

с такой же морфологией (а то и с той же - имени Keva).

С уважением,

Б.Добров

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

3 апреля 2003, 12:20

#6

Уважаемый bvd!

Keva, Keva, ...

Не буду писать "bvd, bvd...", потому что это - своего рода фамильярность. Ну да ладно, стиль общения каждый выбирает для себя сам.

Типа "сам не читал, но считаю своим долгом заявить..."

...без комментариев...

Уж морфология-то у нас есть и по качеству не хуже
(имени Ж.Аношкиной), по-медленнее, конечно, чем от Keva,
но более чем достаточна для поиска по локальному сайту.

"У нас" - это у кого? А "анализатор имени Аношкиной" - это что, теперь признанный стандарт качества и полноты? Не смешите меня :)
А то так можно сказать, что snowball - это хороший стеммер, а словник ispell от А. Лебедева - это морфоанализатор :) Система Аношкиной есть, вообще говоря, хорошая, добросовестная научная работа, но уж никак не выверенный лингвистический материал!

Но задачи бывают разные, и правильный ответ - для каждой
задачи нужен свой метод (одной морфологией все не сделать).

В целом - соглашусь, однако в контексте обсуждения (нужен поиск для больших массивов документов) Вы категорически неправы. Я, несмотря на Ваше утверждение о том, что я "сделал только морфоанализатор", успел спроектировать, реализовать и запустить - приоткрою завесу - не только его :) Еще в моем послужном списке большие поисковики - Апорт и Рамблер, орфографический и грамматический корректор Пропись, да и ряд других продуктов и технологий, выходящих за рамки данной темы. Впрочем, об этом Вы можете почитать на моем сайте.
Так вот, поверьте, в поисковых системах, работающих с большими объемами данных (а Вы, кстати, когда-нибудь индексировали хотя бы десяток-другой гигабайт?), мы не используем словари синонимов или словообразовательные словари вовсе не потому, что у нас их нету или мы не умеем этого делать :) Просто потому, что их использование откровенно вредит качеству поиска.
Более того, мне до сих пор никто не показал ни реально работающей (не "из рук разработчика") поисковой системы, которая использовала бы "семантику", ни какой-либо другой полнотекстовой системы с семантическим компонентом, ни, кстати, системы машинного перевода. Но это уже другая опера.
Впрочем, ставлю ящик пива тому, кто мне ее покажет.

Более того, Игорю (судя по всему из города Питера)

Игорь - это Ашманов. Из Москвы.

С уважением, Андрей Коваленко.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

3 апреля 2003, 12:35

#7

Игорь - это Ашманов. Из Москвы.

Не запутайтесь. Автор нынешнего топика - тоже Игорь и он как раз из Питера.

K

80

Keva

3 апреля 2003, 12:40

#8

Автор нынешнего топика - тоже Игорь и он как раз из Питера.

О! И вправду :) Сергей, привет :)

B

42

bvd

3 апреля 2003, 13:44

#9

Уважаемый Keva!

Не я начинал, не мне оправдываться.

Как писал Keva

"У нас" - это у кого?

Чтобы не спамить - захотите - найдете по фамилии.

Как писал Keva

А "анализатор имени Аношкиной" - это что, теперь признанный стандарт качества и полноты? Не смешите меня :)
А то так можно сказать, что snowball - это хороший стеммер, а словник ispell от А. Лебедева - это морфоанализатор :) Система Аношкиной есть, вообще говоря, хорошая, добросовестная научная работа, но уж никак не выверенный лингвистический материал!

Я же не говорю, что наша морфология лучше всех.

Я только утверждаю, что она не хуже Вашей

Есть система ведения словаря, ведут его профессиональные лингвисты.

То есть, если взять массив текстов, осуществить работы по

пополнению словаря, то показатели полноты/точности

по словоформам/леммам будут у всех одинаково высокими

с незначительными отличиями.

Как писал Keva

В целом - соглашусь, однако в контексте обсуждения (нужен поиск для больших массивов документов) Вы категорически неправы.
...
Так вот, поверьте, в поисковых системах, работающих с большими объемами данных (а Вы, кстати, когда-нибудь индексировали хотя бы десяток-другой гигабайт?), мы не используем словари синонимов или словообразовательные словари вовсе не потому, что у нас их нету или мы не умеем этого делать :) Просто потому, что их использование откровенно вредит качеству поиска.

У нас своя коллекция текстов, сейчас, как раз 10 Гбайт,

около миллиона документов.

Насчет словарей синонимов - мы используем тезаурус -

нам как раз кажется, что

для того чтобы они помогали при поиске их надо ПРАВИЛЬНО

делать, иначе, действительно только хуже.

Насчет качества поиска - на наших текстах (тестирование

вопрос не простой) в среднем при СОХРАНЕНИИ точности

полнота в 4 раза больше. Результаты опубликованы.

Как писал Keva

Я, несмотря на Ваше утверждение о том, что я "сделал только морфоанализатор", успел спроектировать, реализовать и запустить - приоткрою завесу - не только его :) Еще в моем послужном списке большие поисковики - Апорт и Рамблер, орфографический и грамматический корректор Пропись, да и ряд других продуктов и технологий, выходящих за рамки данной темы. Впрочем, об этом Вы можете почитать на моем сайте.

Я в курсе.

Как писал Keva

Более того, мне до сих пор никто не показал ни реально работающей (не "из рук разработчика") поисковой системы, которая использовала бы "семантику", ни какой-либо другой полнотекстовой системы с семантическим компонентом, ни, кстати, системы машинного перевода. Но это уже другая опера.
Впрочем, ставлю ящик пива тому, кто мне ее покажет.

Мы, кстати, слово "семантика" сами не любим.

И в своей организации я сам приложил руки к закрытию

такого проекта.

Однако определять тематику общественно-политических текстов

(в том числе на английском языке) мы умеем неплохо, умеем автоматически рубрицировать (в том числе

по большим иерархическим рубрикаторам - более 1000 рубрик),

автоматически порождать достаточно связную аннотацию.

С уважением, Борис Добров

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

3 апреля 2003, 13:58

#10

Андрей, Борис, не ссорьтесь!

Давайте лучше РОМИПом займемся. :) Вот например, Андрей, скажи, почему это его Рамблер манкирует :) ?

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Google: E-E-A-T не является фактором ранжирования