Используйте вероятнострый алгоритм анализа морфологии. Приведите верхушки списков ассоциативных групп, добавленных и потерянных соответствующим - Поисковые технологии

Поисковые движки

Игорь · 2003-04-01T13:21:30.0000000Z

Коллеги, помогите подобрать партнера )) нам нужна отечественая локальная поисковая система для работы в госсекторе (документооборот, интранет и интернет-проекты) я накопал некоторое количество - но испытываю трудности с их сопоставлением - как с точки зрения функциональности, так и с точки зрения удобности партнерства Буду благодарен за советы, подсказки или оценки Пока я нашел в виде продуктов отечественной разработки 8 движков 1. Яndex.Site 2. программы от Stack Ltd 3. Интегрум Техно Артефакт 4. Гарант-парк интернет Content Opimiser 5. Netlogic MorfoIlias 6. Система Irbis - неизвестно чья :)) 7. Галактика ZOOM 8. система от НИВЦ МГУ администратор форума подсказал еще siteMeta от МЕТА и поисковик, доступный на Finds.ru. Есть мнения о качестве систем и т.п.?

E

1

Eddy

5 мая 2003, 04:56

#41

Как писал Ashmanov
Увы, тут есть теоретический предел: при приближении объёмов простого текста к 10-12 Гбайт, поисковики с хранением индекса в реляционных базах перестают работать.

Эээ... стесняюсь спросить, а что это за теоретический предел такой? Предел чего?

B

42

bvd

5 мая 2003, 11:07

#42

Как писал Eddy
Эээ... стесняюсь спросить, а что это за теоретический предел такой? Предел чего?

О, и мне тоже интересно!

Когда-то (довольно давно) были вполне реальные (но скорее практические) трудности для локальных реляционных баз данных,

индекс которых основан на B-деревьях, - для ускорения работы

производителями закладывалось внутрь определенное предположение

о предельном размере индекса. При превышении этого размера начинались

разные проблемы.

У меня Oracle (несколько баз на разных компьютерах), самая

большая примерно на 10 Гбайт текстов (что-то типа 500 млн. записей,

может больше),

дисковое пространство особенно не экономим. И есть у меня стойкое

ощущение, что могу я без всяких проблем увеличить базу где-то

на порядок - пока дисков хватит (можно еще паковать индексы).

В случае чего, разнести на разные машины, прозрачно использовать несколько баз и т.п.

Но - не проверял.

В целом же, я согласен с И.Ашмановым.

Существует несколько разных бизнес-моделей, которые и определяют

требования на поисковую машину. Требования разные - и машины разные,

хотя имеют много общих черт.

Яндекс.Браузер начал использовать искусственный Google допускает разный контент Рекламодатели обеспокоены отказом Google

158

vmegap

5 мая 2003, 18:28

#43

При этом качество поиска - второстепенно, в первую очередь влияет актуальность, скорость, полнота, отсутствие спама при хорошей релевантности.

Разве это не элементы, составляющие "качество"?

I

80

iseg

25 октября 2003, 21:00

#44

Как писал Keva
И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.

Насчет ощутимо чище.

Я тогда, в апреле проделал некоторую исследовательскю работу. Результат опубликовал. см. здесь

http://company.yandex.ru/articles/iseg-las-vegas.html

Кроме небольшого пиара собственного метода :), там еще реализована следующая техника и идея по "сравнению2 морфологий:

1. Взять все известные и распространяемые публично несловарные русские морфологии (4 штуки: "майстем", "стемка", "сноуболл", "лингвистика")

и применить их так сказать к "дневному кролу", где "дневной крол" моделируется размеченным корпусом.

2. Собрать все "экстра"- и "потерянные" ассоциации для каждого алгоритма. Мы предполагаем, что "руками" лингвисты ошибок не сделали, и что ассоциация, созданная руками, "как бы на 100% верна", хотя бы для и в рамках данного корпуса.

3. Затем дважды их отфильтровать: по частоте в корпусе (убрать слишком редкие и слишком частые) и по логу яндекса (оставить только "интересные" пользователю и поисковой системе)

4. Затем оставшиеся потерянные и добавленные каждым алгоритмом

ассоциации (в статье они называются Pair of Potential Morphological Variants -- PPMV) обработать "алгоритмом определния семантической близости слов" (изобретение мое :)).

"Семантическая близость" двух слов

= число общих хостов в первых тридцатках в результатах поиска в поисковой системе без морфологии (например Google :))

Чем выше этот показатель для приобретенных пар и ниже для утерянных - тем лучше работает несловарная морфология.

5. По обоим показателям mystem занял уверенное первое место. На втором месте snowball и вплотную за ним stemka ("глубокий" вариант). На третьем Linguistica. Хуже всех консервативная стемка.

Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера".

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

25 октября 2003, 21:10

#45

Как писал AiK
Не понравилось всё остальное. Отсюда вопрос к Илье: недружественность по отношению к владельцам виртуальных серверов (абсолютно непонятная политика лицензирования, да и цена в 80$ за Мб заставляет надолго задуматься...) - это "политика партии" или можно попытаться вести конструктивный диалог с Алексеем (он вроде крайним выбран)?

Запоздалый ответ. :) Но все же.

Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.

Дружественность его тоже повысилась. По крайней мере мы очень старались этого добиться.

VT

130

Vyacheslav Tikhonov

31 октября 2003, 11:53

#46

Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.

Неограниченная версия - это, конечно, здорово :)

А не боитесь, что особо продвинутые умельцы будут результаты поиска этого самого я-сайта вызывать из собственного скрипта, на ходу разбирать выдачу и формировать собственную страницу с результатами поиска? :)

Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)

Как правильно оформить теги Новый алгоритм Яндекса Упал доход

I

80

iseg

10 ноября 2003, 12:11

#47

Как писал Vyacheslav Tikhonov
Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)

Специфика нашей морфологии достаточна чтобы понять что это Яндекс. А все остальные проблемы все равно техническим способом непобедимы (в смысле, если захотят своровать то и своруют, как не защищайся). Поэтому уповать надо на юридически-моральные. :)

Вывод на КредитЕвропаБанк Яндекс кобласит Упал доход

P

3

Pavelkq

7 января 2004, 08:27

#48

Есть еще одна фирма занимающаяся поиском для корпоративных клиентов. Они затачивают поисковики под каждого клиента индивидуально в зависимости от специфики. Используют вероятнострый алгоритм анализа морфологии, что при больших объемах оказывается вполне приемлимым.

Вот собственно, и ссылка www.inteltec.ru

Для связи с разработчиками адрес info не со всех доменов принимает почту. Пробуйте support@и т.д.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

80

iseg

16 января 2004, 06:56

#49

Как писал Pavelkq
Есть еще одна фирма

Почем одна? Моему списку уже полтора года, и он требует конечно обновления, но все же их как минимум 24.

http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156

Илья

I

80

iseg

19 января 2004, 08:07

#50

Как писал iseg
Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера"

Как и обещал, привожу верхушки списков ассоциациативных групп.

Для каждого алгоритма перечислены по убыванию частоты первого слова 10 ассоциативных групп, добавленных и потерянных соответствующим алгоритмом по сравнению с каноническими ассоциациями, установленными из морфологически размеченного корпуса, отредактированного вручную.

ПРИМЕЧАНИЕ: Для каждой группы пришлось оставить несколько самых характерных слов, чтобы влезло в данный постинг.

ПРИМЕЧАНИЕ 2: Все равно таблицы сюда не влезли, поэтому пришлось выложить на отдельную страничку, сорри.

http://iseg.narod.ru/summary.html

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Маркетинг для шоколадной фабрики. На 34% выше средний чек

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Поисковые движки