Помогите с выбором технологий для написания поисковой системы

0

straylon

18 мая 2009, 09:41

2933

Здравствуйте, уважаемые участники форума! Столкнулся со следующей проблемой, которую необходимо решить. Нужно написать настольную поисковую систему, которая позволяет проводить интеллектуальный поиск по ресурсам жесткого диска пользователя, ресурсам локальной сети, а также по сайтам в Интернет, которые укажет пользователь. Также система будет позволять создавать индексную базу данных для этих ресурсов. В данном направлении была проведена большая исследовательская работа в рамках нашего института, разработаны (пока в теории) алгоритмы и т.д. и т.п. Дело осталось за малым – реализовать то, что разработано. Могли бы Вы посоветовать, какие технологии программирования лучше использовать для такой задачи? Какие технологии для работы с базами данных нужны? Есть одно основное требование к данной системе. Необходимо, чтобы был встроенный движок СУБД, а не MySQL и т.п. Что в таком случае лучше использовать? Заранее благодарю за помощь и Ваше время.

BD

35

B3CH3D

18 мая 2009, 14:23

#1

Я не спец, но отпишусь..

Думаю, что в плане языков программирования равных C++ практически нет..

Насчёт СУБД: Вы хотите написать свою собственную? Ну тогда это сама по себе очень большая работа. Думаю, что легче воспользоваться тем, что есть. Например, PostgreSQL (работает быстрее, нежели MySQL). Посмотрите ещё на Berkeley DB.

Аудит безопасности сайтов (http://ahack.ru)

Интернет магазин без mysql исходя из каких параметров Какой объём БД у

BN

13

BION

18 мая 2009, 17:31

#2

straylon:
Нужно написать настольную поисковую систему, которая позволяет проводить интеллектуальный поиск по ресурсам жесткого диска пользователя, ресурсам локальной сети, а также по сайтам в Интернет, которые укажет пользователь.

Краулинг и парсинг гипертекста можно осуществлять на Python или Perl, для всего остального где важна скорость -- С/С++. Хотя если десктоп аппликейшн, то только С++ (или D). Если конкурировать с Гугл или Яндекс (действительно, а какого черта :) ) то разрабатывать свои технологии (распределенного) хранения индекса. Ну а если же это все так -- "щоб було", тогда действительно подойдет и PostgreSQL, Яху например его активно использует. BerkeleyDB оч шустрая.

А какие алгоритмы уже проработаны? Ведь многое зависит как раз от того как именно хранятся данные. Тут все к простому SQL не сведешь.

Почитайте тут: http://ilpubs.stanford.edu:8090/361/ и тут http://owngarbage.narod.ru/Doc/Turtle_search_engine.doc

Вот еще была темка: Реально ли написать поисковик на php

И все же, наверное говорю как любитель. Создание поисковой системы -- задчача одна из сложнейших, но вместе с тем одна из самых интереснейших. Самому было бы интересно авторитетное мнение.

Если подходить с практической точки зрения, то есть Google пользовательский поиск и Google Desktop, Yandex.Server и Yandex.Desktop.

Однако может быть и своя специфика или абсолютно новая идея поиска. Она есть?

Поисковые алгоритмы и методы Яндекс тестирует персонализацию выдачи? Распределение запросов по сайту

370

Слава Шевцов

18 мая 2009, 19:32

#3

straylon:
В данном направлении была проведена большая исследовательская работа в рамках нашего института, разработаны (пока в теории) алгоритмы и т.д. и т.п. Дело осталось за малым – реализовать то, что разработано.

Предлагаю: воспользоваться результатами той самой большой исследовательской работы ;)

straylon:
Могли бы Вы посоветовать, какие технологии программирования лучше использовать для такой задачи? Какие технологии для работы с базами данных нужны? Есть одно основное требование к данной системе. Необходимо, чтобы был встроенный движок СУБД, а не MySQL и т.п. Что в таком случае лучше использовать? Заранее благодарю за помощь и Ваше время.

Почитайте этот подфорум. Здесь много чего интересного есть. В том числе по устройству специализированой базы данных, по сканированию ресурсов, по инкрементному индексированию, по алгоритмам поиска и др.

Если из Москвы - в личку и встречаться в кафе ;)

Неизменность точки зрения неизменно порождает иллюзию понимания.

Можно ли доверять статистике HostiMan.ru - Бесплатный NVMe Мета-описание и поиск?

S

0

straylon

19 мая 2009, 10:21

#4

Спасибо всем за исчерпывающие ответы. Много чего почерпнул из них.

Я из Беларуси, работаю в Объединенном институте информатике www.uiip.bas-net.by. Собственно работаю в данном направлении уже три года. Система получится (если все будет ОК) достаточно интересной, на мой взгляд, т.к. с учетом разработанной модели базы знаний у пользователя будет возможность настраивать поисковую систему на специфическую область поиска + она сможет сама адаптироваться под конкретного пользователя с учетом ранних его запросов. Пока планируем разработать ее, как отдельное приложение, дальше будем реализовывать в Интернете. Также будет возможность аннотировать и реферировать найденную информацию. Ну не будем загадывать :) Будем работать 🚬 Всем еще раз спасибо.

P.S. Если будут трудности, то надеюсь всегда на Вашу помощь

Компании Mail.ru и “Яндекс” Mail.ru интегрирует каталог с Мобильный трафик. Смартфон, как

113

GreenBee

19 мая 2009, 11:19

#5

А почему бы не использовать для ваших задач Яндекс.Сервер?

Кроме того, хочу добавить насчет движка СУБД. Есть такая встраиваемая СУБД SQLite

370

Слава Шевцов

19 мая 2009, 11:30

#6

GreenBee, а если подумать?

49

Andrey Ogarok

19 мая 2009, 19:56

#7

Если брать готовую, то посмотрите здесь перечень поисковых систем, программных модулей и технологий: http://info.asknet.ru/Analytics/programms.htm. Если интересует разработка и теория, то проектов с открытым исходным кодом поисковых систем довольно много. Например, посмотрите проект lucene.apache.org -

What Is Lucene?

The Apache Lucene project develops open-source search software, including:

Lucene Java, our flagship sub-project, provides Java-based indexing and search technology, as well as spellchecking, hit highlighting and advanced analysis/tokenization capabilities.

Droids is an intelligent robot crawling framework currently in incubation.

Lucene.Net is a source code, class-per-class, API-per-API and algorithmatic port of the Lucene Java search engine to the C# and .NET platform utilizing Microsoft .NET Framework. Lucene.Net is currently under incubation.

Lucy is a loose C port of Lucene Java, with Perl and Ruby bindings.

Mahout is a subproject with the goal of creating a suite of scalable machine learning libraries.

Nutch builds on Lucene Java to provide web search application software.

PyLucene is a Python port of the the Lucene Java project.

Solr is a high performance search server built using Lucene Java, with XML/HTTP and JSON/Python/Ruby APIs, hit highlighting, faceted search, caching, replication, and a web admin interface.

Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.

www.asknet.ru (www.asknet.ru) - вопросно-ответная поисковая система. Автоматические ответы на вопросы пользователей.

хранение индекса, проблемы Web Service Developer в Web Service Developer в

72

DeveloperRu

20 мая 2009, 02:50

#8

" Программы и SDK распространяются на коммерческой основе. "

имхо, было бы лучше поделиться идеями и алгоритмами, которые (перед созданием на си) можно опробовать на пхп-морфологии

например, как приложить семантику к индексатору, чтобы выявлять бессмысленный набор текстов и тп

Ответы на вопросы (http://telenok.com)

Софт для ПК и Анализ текствов конкурентов Проясните вопрос с созданием

49

Andrey Ogarok

20 мая 2009, 20:24

#9

DeveloperRu:
" Программы и SDK распространяются на коммерческой основе. "
...
например, как приложить семантику к индексатору, чтобы выявлять бессмысленный набор текстов и тп

1. Существует множество проектов создания поисковых систем с открытым исходным кодом (open source), в том числе lucene. Они распространяются НЕ не коммерческой основе.

2. Прикладывать семантику надо совместно с синтаксическим анализом, тогда эффект будет на порядок выше. Как это делать описано в алгоритмах работы лингвистических процессоров.

Google открыл исходный код Facebook огласил планы разработки Yandex Cloud открывает исходный

72

DeveloperRu

21 мая 2009, 06:40

#10

синтаксис - это правила построения предложений, а семантика - смысл предложения или словосочетания, верно ?

Что делать, если ваша email-рассылка попала в спам

Яндекс Вебмастер вынес товарные фиды в отдельный раздел