Как грамотно построить индекс?

42

object

17 мая 2009, 21:27

1144

Впервые собираю поисковый движок, столкнулся с проблемой составления индекса. Предполагаемый размер индекса 200 Мб. Предполагается сделать поиск по сайту и проиндексировать 150 региональных сайтов. Теоретически индекс должен составлять 20% от индексируемых объектов, но у меня выходит 30-40%, что великовато. Библиотеку пишу на C#, open-source аналоги, как правило, зарубежного производства рассчитаны на языки германской или романской группы, не проходят тестирование русским языком.

Индекс собираю в трех таблицах файловой системы: 1. данные о документе, 2. основные ключевые слова по весу, 3. остальные ключевые слова документа тоже по весу (самая большая таблица в индексе). Сначала читается таблица 2 – результаты запроса сравниваются и если материала для анализа не хватает, читается таблица 3, после чего выводится результат.

Возможно мои представления о составлении индекса наивные, но материала по этому вопросу столь много, что мне не прочитать и не осмыслить за короткое время, которое у меня имеется для создания сборки.

Прошу помочь советом по созданию эффективного индекса в рамках моей задачи. Скорость работы библиотеки весьма высока, можно добавить дополнительный анализатор. Как грамотно построить индекс?

Кто может объяснить на пальцах?

H

63

horlap

17 мая 2009, 21:29

#1

Ни фига себе вопросы от новичков :) Вы разделом не ошиблись :) ?

128

HraKK

17 мая 2009, 21:31

#2

Не пишите велосипеды, используйте sphinx.

С Вас 10$ за наводку.

я гарант (/ru/forum/493343) уже не оказываю данные услуги, извините.

370

Слава Шевцов

17 мая 2009, 21:32

#3

object, стемку используете, чтобы уменьшить число "уникальных" слов?

Неизменность точки зрения неизменно порождает иллюзию понимания.

O

42

object

17 мая 2009, 21:39

#4

HraKK:
Не пишите велосипеды, используйте sphinx.
С Вас 10$ за наводку.

Не подходит, у меня windows и опять же не доверяю зарубежным аналогам, только что отложил в сторону Lucene, а жаль - хороший движок, но проблема с русским.

Слава Шевцов:
object, стемку используете, чтобы уменьшить число "уникальных" слов?

Стемминг используется, но всего не может решить, нужен алгоритм отсева "ненужных" слов.

Google может отложить переход Google учит русский язык Джон Мюллер о роли

370

Слава Шевцов

17 мая 2009, 21:40

#5

object:
Стемминг используется, но всего не может решить, нужен алгоритм отсева "ненужных" слов.

А Вас так сильно напрягает размер индекса?

O

42

object

17 мая 2009, 21:48

#6

Слава Шевцов:
А Вас так сильно напрягает размер индекса?

В общем-то, нет – есть небольшой резерв (100 Мб). Боюсь потерей в узком месте input/output, это же фс. Все-таки хочется ориентироваться на лучшие образцы, но это непросто.

128

HraKK

17 мая 2009, 22:22

#7

object:
не доверяю зарубежным аналогам

Так какого работаете на виндовсе? Это же зарубежный аналог.

На сфинксе в россии стоилько крупных проектов что вы себе и представить не можете.

И конечно ваш говнопоиск будет круче ссфинкса. Надоели, такие люди.

У каждого все круче, 3843242-ую цмс пишем, 3423423-поиск.

Оцените двиг Аукцион|Joomla |Народная медицина-Медицина без Серьёзные проблемы с WebMoney

Open AI тестирует память для ChatGPT

Переиграть и победить: как анализировать конкурентов для продвижения сайта