- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Впервые собираю поисковый движок, столкнулся с проблемой составления индекса. Предполагаемый размер индекса 200 Мб. Предполагается сделать поиск по сайту и проиндексировать 150 региональных сайтов. Теоретически индекс должен составлять 20% от индексируемых объектов, но у меня выходит 30-40%, что великовато. Библиотеку пишу на C#, open-source аналоги, как правило, зарубежного производства рассчитаны на языки германской или романской группы, не проходят тестирование русским языком.
Индекс собираю в трех таблицах файловой системы: 1. данные о документе, 2. основные ключевые слова по весу, 3. остальные ключевые слова документа тоже по весу (самая большая таблица в индексе). Сначала читается таблица 2 – результаты запроса сравниваются и если материала для анализа не хватает, читается таблица 3, после чего выводится результат.
Возможно мои представления о составлении индекса наивные, но материала по этому вопросу столь много, что мне не прочитать и не осмыслить за короткое время, которое у меня имеется для создания сборки.
Прошу помочь советом по созданию эффективного индекса в рамках моей задачи. Скорость работы библиотеки весьма высока, можно добавить дополнительный анализатор. Как грамотно построить индекс?
Кто может объяснить на пальцах?
Ни фига себе вопросы от новичков :) Вы разделом не ошиблись :) ?
Не пишите велосипеды, используйте sphinx.
С Вас 10$ за наводку.
object, стемку используете, чтобы уменьшить число "уникальных" слов?
Не пишите велосипеды, используйте sphinx.
С Вас 10$ за наводку.
Не подходит, у меня windows и опять же не доверяю зарубежным аналогам, только что отложил в сторону Lucene, а жаль - хороший движок, но проблема с русским.
object, стемку используете, чтобы уменьшить число "уникальных" слов?
Стемминг используется, но всего не может решить, нужен алгоритм отсева "ненужных" слов.
Стемминг используется, но всего не может решить, нужен алгоритм отсева "ненужных" слов.
А Вас так сильно напрягает размер индекса?
А Вас так сильно напрягает размер индекса?
В общем-то, нет – есть небольшой резерв (100 Мб). Боюсь потерей в узком месте input/output, это же фс. Все-таки хочется ориентироваться на лучшие образцы, но это непросто.
не доверяю зарубежным аналогам
Так какого работаете на виндовсе? Это же зарубежный аналог.
На сфинксе в россии стоилько крупных проектов что вы себе и представить не можете.
И конечно ваш говнопоиск будет круче ссфинкса. Надоели, такие люди.
У каждого все круче, 3843242-ую цмс пишем, 3423423-поиск.