Поисковые движки

E
На сайте с 28.04.2003
Offline
1
#41
Как писал Ashmanov
Увы, тут есть теоретический предел: при приближении объёмов простого текста к 10-12 Гбайт, поисковики с хранением индекса в реляционных базах перестают работать.

Эээ... стесняюсь спросить, а что это за теоретический предел такой? Предел чего?

B
На сайте с 02.09.2002
Offline
42
bvd
#42
Как писал Eddy
Эээ... стесняюсь спросить, а что это за теоретический предел такой? Предел чего?

О, и мне тоже интересно!

Когда-то (довольно давно) были вполне реальные (но скорее практические) трудности для локальных реляционных баз данных,

индекс которых основан на B-деревьях, - для ускорения работы

производителями закладывалось внутрь определенное предположение

о предельном размере индекса. При превышении этого размера начинались

разные проблемы.

У меня Oracle (несколько баз на разных компьютерах), самая

большая примерно на 10 Гбайт текстов (что-то типа 500 млн. записей,

может больше),

дисковое пространство особенно не экономим. И есть у меня стойкое

ощущение, что могу я без всяких проблем увеличить базу где-то

на порядок - пока дисков хватит (можно еще паковать индексы).

В случае чего, разнести на разные машины, прозрачно использовать несколько баз и т.п.

Но - не проверял.

В целом же, я согласен с И.Ашмановым.

Существует несколько разных бизнес-моделей, которые и определяют

требования на поисковую машину. Требования разные - и машины разные,

хотя имеют много общих черт.

vmegap
На сайте с 03.02.2002
Offline
158
#43
При этом качество поиска - второстепенно, в первую очередь влияет актуальность, скорость, полнота, отсутствие спама при хорошей релевантности.

Разве это не элементы, составляющие "качество"?

I
На сайте с 15.12.2000
Offline
80
#44
Как писал Keva
И есть моя бесплатная stemka, русский и украинский стеммер, ты о ней читал. http://linguist.nm.ru/stemka/stemka.html. Работает ощутимо чище, чем Snowball. Используется для анализа не известных морфологическим анализаторам слов в продуктах Меты. В том числе и в большом поисковике.

Насчет ощутимо чище.

Я тогда, в апреле проделал некоторую исследовательскю работу. Результат опубликовал. см. здесь

http://company.yandex.ru/articles/iseg-las-vegas.html

Кроме небольшого пиара собственного метода :), там еще реализована следующая техника и идея по "сравнению2 морфологий:

1. Взять все известные и распространяемые публично несловарные русские морфологии (4 штуки: "майстем", "стемка", "сноуболл", "лингвистика")

и применить их так сказать к "дневному кролу", где "дневной крол" моделируется размеченным корпусом.

2. Собрать все "экстра"- и "потерянные" ассоциации для каждого алгоритма. Мы предполагаем, что "руками" лингвисты ошибок не сделали, и что ассоциация, созданная руками, "как бы на 100% верна", хотя бы для и в рамках данного корпуса.

3. Затем дважды их отфильтровать: по частоте в корпусе (убрать слишком редкие и слишком частые) и по логу яндекса (оставить только "интересные" пользователю и поисковой системе)

4. Затем оставшиеся потерянные и добавленные каждым алгоритмом

ассоциации (в статье они называются Pair of Potential Morphological Variants -- PPMV) обработать "алгоритмом определния семантической близости слов" (изобретение мое :)).

"Семантическая близость" двух слов

= число общих хостов в первых тридцатках в результатах поиска в поисковой системе без морфологии (например Google :))

Чем выше этот показатель для приобретенных пар и ниже для утерянных - тем лучше работает несловарная морфология.

5. По обоим показателям mystem занял уверенное первое место. На втором месте snowball и вплотную за ним stemka ("глубокий" вариант). На третьем Linguistica. Хуже всех консервативная стемка.

Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера".

I
На сайте с 15.12.2000
Offline
80
#45
Как писал AiK
Не понравилось всё остальное. Отсюда вопрос к Илье: недружественность по отношению к владельцам виртуальных серверов (абсолютно непонятная политика лицензирования, да и цена в 80$ за Мб заставляет надолго задуматься...) - это "политика партии" или можно попытаться вести конструктивный диалог с Алексеем (он вроде крайним выбран)?

Запоздалый ответ. :) Но все же.

Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.

Дружественность его тоже повысилась. По крайней мере мы очень старались этого добиться.

VT
На сайте с 27.01.2001
Offline
130
#46
Начиная с третьей версии я-сайт неограничен по объему в shareware-версии.

Неограниченная версия - это, конечно, здорово :)

А не боитесь, что особо продвинутые умельцы будут результаты поиска этого самого я-сайта вызывать из собственного скрипта, на ходу разбирать выдачу и формировать собственную страницу с результатами поиска? :)

Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)

I
На сайте с 15.12.2000
Offline
80
#47
Как писал Vyacheslav Tikhonov
Никто ведь и не поймет, что это был яндекс-сайт, а самому себе закрыть доступ - слабо, я думаю. :)

Специфика нашей морфологии достаточна чтобы понять что это Яндекс. А все остальные проблемы все равно техническим способом непобедимы (в смысле, если захотят своровать то и своруют, как не защищайся). Поэтому уповать надо на юридически-моральные. :)

P
На сайте с 07.01.2004
Offline
3
#48

Есть еще одна фирма занимающаяся поиском для корпоративных клиентов. Они затачивают поисковики под каждого клиента индивидуально в зависимости от специфики. Используют вероятнострый алгоритм анализа морфологии, что при больших объемах оказывается вполне приемлимым.

Вот собственно, и ссылка www.inteltec.ru

Для связи с разработчиками адрес info не со всех доменов принимает почту. Пробуйте support@и т.д.

I
На сайте с 15.12.2000
Offline
80
#49
Как писал Pavelkq
Есть еще одна фирма

Почем одна? Моему списку уже полтора года, и он требует конечно обновления, но все же их как минимум 24.

http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15156

Илья

I
На сайте с 15.12.2000
Offline
80
#50
Как писал iseg
Могу привести в отдельном постинге частотные верхушки списков для каждого "несловарного" русского "стеммера"

Как и обещал, привожу верхушки списков ассоциациативных групп.

Для каждого алгоритма перечислены по убыванию частоты первого слова 10 ассоциативных групп, добавленных и потерянных соответствующим алгоритмом по сравнению с каноническими ассоциациями, установленными из морфологически размеченного корпуса, отредактированного вручную.

ПРИМЕЧАНИЕ: Для каждой группы пришлось оставить несколько самых характерных слов, чтобы влезло в данный постинг.

ПРИМЕЧАНИЕ 2: Все равно таблицы сюда не влезли, поэтому пришлось выложить на отдельную страничку, сорри.

http://iseg.narod.ru/summary.html

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий