- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Коллеги, помогите подобрать партнера ))
нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты)
я накопал некоторое количество - но испытываю трудности с их сопоставлением - как с точки зрения функциональности, так и с точки зрения удобности партнерства
Буду благодарен за советы, подсказки или оценки
Пока я нашел в виде продуктов отечественной разработки 8 движков
1. Яndex.Site
2. программы от Stack Ltd
3. Интегрум Техно Артефакт
4. Гарант-парк интернет Content Opimiser
5. Netlogic MorfoIlias
6. Система Irbis - неизвестно чья :))
7. Галактика ZOOM
8. система от НИВЦ МГУ
администратор форума подсказал еще siteMeta от МЕТА и поисковик, доступный на Finds.ru.
Есть мнения о качестве систем и т.п.?
нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты)
Вот это - правильный подход! Кроме шуток. Просто по той причине, что отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.
Попробую прокомментировать:
Стабильно работающий, добротный продукт. Работает не сильно быстро. Применяется в массе мест. Есть халявная версия. Лицензия для использования - достаточно дорогая.
С точки зрения качества поиска можно оценить их статику на www.turtle.ru, динамику - по ссылке с их сайта. Разработка Димы Крюкова, автора первой версии Рамблера, при участии Олега Бартунова и Жени Родичева. Лингвистика приобретена моя, однако, похоже, Родичев вмешивался туда, так что качество оной упало.
Поисковая машина, выросшая из проекта "ИПС Агама", она же - "ИПС МИРС", она же - далее - "ИПС Артефакт". Заточена под работу с модерируемыми объемами информации. Руководитель разработки и идеолог - Владимир Пархоменко, мой учитель. Высокое качество поиска по коллекциям документов. Недостаток - система слишком сильно заточена была при разработке на Win32.
"Плюха" для Oracle, весьма тяжелая и дорогая. Лингвистика - изначально - моя, однако в нее тоже лазили руками. Словник - на уровне 1994 года
5. Netlogic MorfoIlias
6. Система Irbis - неизвестно чья :))
Без комментариев. Не знаю.
Как и любая система от госструктур, наполнена блестящими научными идеями, и неплохо должна работать на объемах данных, составленных авторами системы. На реальных данных "блестящие идеи", как правило, не работают.
Украинская (не российская!) разработка. Качество поиска - см. http://www.meta.ua/, лингвистика - моя, с постоянной поддержкой и пополнением словарей. Есть халявная версия, коммерческие версии дешевле, чем Яndex.site. Внедрения в госструктурах Украины, в том числе - поиск на портале кабмина Украины.
Есть. Идеальный вариант - это система либо с Информатиковской, либо с моей лингвистикой для русского языка (лучшие анализаторы), и с желанием разработчиков сотрудничать с тобой, докручивать систему под твои нужды, а не предлагать типа "коробочного продукта" as is. Особенно опасайся, если тебе начинают говорить, что при поиске используется какой-либо тезаурус, кроме составленного специально для твоих нужд, словари синонимов, а особенно - АХТУНГ!!! - "семантика". Скажут про семантику - беги :)
Так что реальный выбор у тебя - либо Яndex.site, либо софт от Меты.
С уважением, Keva.
У есть меня более полный список:
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156
Это как надо понимать? :)
Опишите задачу подробней:
1. Что кроме непосредственно поиска нужно и с каким приоритетом?
(чистка дублей, группирование выдачи, тематическая классификация, настройки поискового интерфейса, права доступа - направлений миллион .... и т.д. и т.п.)
2. Количественные показатели задач (размер коллекции, число пользоветелей, время обновления)
2. Качественные (форматы, способ хранения данных)
и т.д. и т.п.
Илья
P.S.
А почему в списке нет иностранцев? Или главная задача - "чтобы было и чтобы было дешево"?
отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.
Это не совсем так.
Русские морфологии в западных системах растут из нескольких мест.
1. Verity и UltraSeek (позже Inktomi, а теперь тоже Verity) закупались в свое время у Европейского Ксерокса (Xerox Research Center Europe в Гренобле, точнее их коммерческий отдел - LinguistX). Алгоритмы там стандартные выросшие из PC-KIMO, то есть заточенные под все морфологии на свете. Автор трансдьюсера - Картунен.
Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.
2. Fast. (он же Lycos, а теперь уже и Overture). Там морфология другая, она похоже качественней. Кто ее делал, я не знаю. Сам Фаст очень быстрая и масштабируемая искалка. Если нужно поставить что-то для индексации какого-нибудь Веба то реальный выбор только между продуктами Альтависты и Фастом.
3. Еще есть финны, которые торгуют русской морфологией для поисковых систем. www.lingsoft.fi
Вот пожалуй и все. (Кстати, Андрей, а в руссифицированном Excalibur-е чья морфология - не твоя ли?)
Цены западных систем (навскидку):
Verity, Excalibur, Autonomy, Recommind, Fast - все от 100-150 тысяч и выше.
Google-In-The-Box встанет не дешевле (морфологий там нет в принципе: у них такая идеология)
Ultraseek - единственный недорогой масштабируемый по цене продукт, похожий по лицензионной политике на Я-Сайт. Но все равно подороже.
Подробнее: www.searchtools.com
Илья
Привет, Илья!
Есть и такое мнение :)
Словарь там делали наши лингвисты, которых выписывали специально из Москвы на сессионную работу.
...но качество лингвистических данных... Как бы это сказать... Ну, несколько хромает :) Кроме того, насколько мне известно, Херох всегда делал акцент на автоматическое построение анализаторов по корпусу текстов, и здесь это тоже сыграло роль.
...а этот анализатор, на голом, нечищенном словаре Зализняка, объемом 96 тышш основ, можно сразу выбросить
Нет, Илья, в Экскалибуре - не моя. Это Игорь. Еще Информатиковских времен.
Андрей.
Oops - что-то отказалась система публиковать сообщение,
стерев набранное - послал не то...
Хорошо, что такое не в первый раз - сохранил в буфере.
Вот это - правильный подход! Кроме шуток. Просто по той причине, что отечественные системы, и только они, корректно обрабатывают особенности словоизменения славянских языков.
...
Как и любая система от госструктур, наполнена блестящими научными идеями, и неплохо должна работать на объемах данных, составленных авторами системы. На реальных данных "блестящие идеи", как правило, не работают.
...
С уважением, Keva.
Keva, Keva, ...
Ах как легко и просто плюнуть походя.
Типа "сам не читал, но считаю своим долгом заявить..."
Уж морфология-то у нас есть и по качеству не хуже
(имени Ж.Аношкиной), по-медленнее, конечно, чем от Keva,
но более чем достаточна для поиска по локальному сайту.
Доказывать что-то бессмысленно, но если работу покупают - значит
это кому-нибудь нужно...
Есть. Идеальный вариант - это система либо с Информатиковской, либо с моей лингвистикой для русского языка (лучшие анализаторы), и с желанием разработчиков сотрудничать с тобой, докручивать систему под твои нужды, а не предлагать типа "коробочного продукта" as is.
Так что реальный выбор у тебя - либо Яndex.site, либо софт от Меты.
С выводом по софту для локального сайта согласен,
если требуется только морфология.
Особенно опасайся, если тебе начинают говорить, что при поиске используется какой-либо тезаурус, кроме составленного специально для твоих нужд, словари синонимов, а особенно - АХТУНГ!!! - "семантика". Скажут про семантику - беги :)
Те кто реализовал только морфологию (и хорошо реализовал)
- что достаточно в большинстве случаев - уверены, что
ничего другого быть не должно.
Но задачи бывают разные, и правильный ответ - для каждой
задачи нужен свой метод (одной морфологией все не сделать).
Более того, Игорю (судя по всему из города Питера),
стоит учесть, что и конкуренты его придут на тендер
с такой же морфологией (а то и с той же - имени Keva).
С уважением,
Б.Добров
Уважаемый bvd!
Не буду писать "bvd, bvd...", потому что это - своего рода фамильярность. Ну да ладно, стиль общения каждый выбирает для себя сам.
...без комментариев...
(имени Ж.Аношкиной), по-медленнее, конечно, чем от Keva,
но более чем достаточна для поиска по локальному сайту.
"У нас" - это у кого? А "анализатор имени Аношкиной" - это что, теперь признанный стандарт качества и полноты? Не смешите меня :)
А то так можно сказать, что snowball - это хороший стеммер, а словник ispell от А. Лебедева - это морфоанализатор :) Система Аношкиной есть, вообще говоря, хорошая, добросовестная научная работа, но уж никак не выверенный лингвистический материал!
задачи нужен свой метод (одной морфологией все не сделать).
В целом - соглашусь, однако в контексте обсуждения (нужен поиск для больших массивов документов) Вы категорически неправы. Я, несмотря на Ваше утверждение о том, что я "сделал только морфоанализатор", успел спроектировать, реализовать и запустить - приоткрою завесу - не только его :) Еще в моем послужном списке большие поисковики - Апорт и Рамблер, орфографический и грамматический корректор Пропись, да и ряд других продуктов и технологий, выходящих за рамки данной темы. Впрочем, об этом Вы можете почитать на моем сайте.
Так вот, поверьте, в поисковых системах, работающих с большими объемами данных (а Вы, кстати, когда-нибудь индексировали хотя бы десяток-другой гигабайт?), мы не используем словари синонимов или словообразовательные словари вовсе не потому, что у нас их нету или мы не умеем этого делать :) Просто потому, что их использование откровенно вредит качеству поиска.
Более того, мне до сих пор никто не показал ни реально работающей (не "из рук разработчика") поисковой системы, которая использовала бы "семантику", ни какой-либо другой полнотекстовой системы с семантическим компонентом, ни, кстати, системы машинного перевода. Но это уже другая опера.
Впрочем, ставлю ящик пива тому, кто мне ее покажет.
Игорь - это Ашманов. Из Москвы.
С уважением, Андрей Коваленко.
Не запутайтесь. Автор нынешнего топика - тоже Игорь и он как раз из Питера.
О! И вправду :) Сергей, привет :)
Уважаемый Keva!
Не я начинал, не мне оправдываться.
"У нас" - это у кого?
Чтобы не спамить - захотите - найдете по фамилии.
А "анализатор имени Аношкиной" - это что, теперь признанный стандарт качества и полноты? Не смешите меня :)
А то так можно сказать, что snowball - это хороший стеммер, а словник ispell от А. Лебедева - это морфоанализатор :) Система Аношкиной есть, вообще говоря, хорошая, добросовестная научная работа, но уж никак не выверенный лингвистический материал!
Я же не говорю, что наша морфология лучше всех.
Я только утверждаю, что она не хуже Вашей
Есть система ведения словаря, ведут его профессиональные лингвисты.
То есть, если взять массив текстов, осуществить работы по
пополнению словаря, то показатели полноты/точности
по словоформам/леммам будут у всех одинаково высокими
с незначительными отличиями.
В целом - соглашусь, однако в контексте обсуждения (нужен поиск для больших массивов документов) Вы категорически неправы.
...
Так вот, поверьте, в поисковых системах, работающих с большими объемами данных (а Вы, кстати, когда-нибудь индексировали хотя бы десяток-другой гигабайт?), мы не используем словари синонимов или словообразовательные словари вовсе не потому, что у нас их нету или мы не умеем этого делать :) Просто потому, что их использование откровенно вредит качеству поиска.
У нас своя коллекция текстов, сейчас, как раз 10 Гбайт,
около миллиона документов.
Насчет словарей синонимов - мы используем тезаурус -
нам как раз кажется, что
для того чтобы они помогали при поиске их надо ПРАВИЛЬНО
делать, иначе, действительно только хуже.
Насчет качества поиска - на наших текстах (тестирование
вопрос не простой) в среднем при СОХРАНЕНИИ точности
полнота в 4 раза больше. Результаты опубликованы.
Я, несмотря на Ваше утверждение о том, что я "сделал только морфоанализатор", успел спроектировать, реализовать и запустить - приоткрою завесу - не только его :) Еще в моем послужном списке большие поисковики - Апорт и Рамблер, орфографический и грамматический корректор Пропись, да и ряд других продуктов и технологий, выходящих за рамки данной темы. Впрочем, об этом Вы можете почитать на моем сайте.
Я в курсе.
Более того, мне до сих пор никто не показал ни реально работающей (не "из рук разработчика") поисковой системы, которая использовала бы "семантику", ни какой-либо другой полнотекстовой системы с семантическим компонентом, ни, кстати, системы машинного перевода. Но это уже другая опера.
Впрочем, ставлю ящик пива тому, кто мне ее покажет.
Мы, кстати, слово "семантика" сами не любим.
И в своей организации я сам приложил руки к закрытию
такого проекта.
Однако определять тематику общественно-политических текстов
(в том числе на английском языке) мы умеем неплохо, умеем автоматически рубрицировать (в том числе
по большим иерархическим рубрикаторам - более 1000 рубрик),
автоматически порождать достаточно связную аннотацию.
С уважением, Борис Добров
Андрей, Борис, не ссорьтесь!
Давайте лучше РОМИПом займемся. :) Вот например, Андрей, скажи, почему это его Рамблер манкирует :) ?