- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, уважаемые участники форума! Столкнулся со следующей проблемой, которую необходимо решить. Нужно написать настольную поисковую систему, которая позволяет проводить интеллектуальный поиск по ресурсам жесткого диска пользователя, ресурсам локальной сети, а также по сайтам в Интернет, которые укажет пользователь. Также система будет позволять создавать индексную базу данных для этих ресурсов. В данном направлении была проведена большая исследовательская работа в рамках нашего института, разработаны (пока в теории) алгоритмы и т.д. и т.п. Дело осталось за малым – реализовать то, что разработано. Могли бы Вы посоветовать, какие технологии программирования лучше использовать для такой задачи? Какие технологии для работы с базами данных нужны? Есть одно основное требование к данной системе. Необходимо, чтобы был встроенный движок СУБД, а не MySQL и т.п. Что в таком случае лучше использовать? Заранее благодарю за помощь и Ваше время.
Я не спец, но отпишусь..
Думаю, что в плане языков программирования равных C++ практически нет..
Насчёт СУБД: Вы хотите написать свою собственную? Ну тогда это сама по себе очень большая работа. Думаю, что легче воспользоваться тем, что есть. Например, PostgreSQL (работает быстрее, нежели MySQL). Посмотрите ещё на Berkeley DB.
Нужно написать настольную поисковую систему, которая позволяет проводить интеллектуальный поиск по ресурсам жесткого диска пользователя, ресурсам локальной сети, а также по сайтам в Интернет, которые укажет пользователь.
Краулинг и парсинг гипертекста можно осуществлять на Python или Perl, для всего остального где важна скорость -- С/С++. Хотя если десктоп аппликейшн, то только С++ (или D). Если конкурировать с Гугл или Яндекс (действительно, а какого черта :) ) то разрабатывать свои технологии (распределенного) хранения индекса. Ну а если же это все так -- "щоб було", тогда действительно подойдет и PostgreSQL, Яху например его активно использует. BerkeleyDB оч шустрая.
А какие алгоритмы уже проработаны? Ведь многое зависит как раз от того как именно хранятся данные. Тут все к простому SQL не сведешь.
Почитайте тут: http://ilpubs.stanford.edu:8090/361/ и тут http://owngarbage.narod.ru/Doc/Turtle_search_engine.doc
Вот еще была темка: Реально ли написать поисковик на php
И все же, наверное говорю как любитель. Создание поисковой системы -- задчача одна из сложнейших, но вместе с тем одна из самых интереснейших. Самому было бы интересно авторитетное мнение.
Если подходить с практической точки зрения, то есть Google пользовательский поиск и Google Desktop, Yandex.Server и Yandex.Desktop.
Однако может быть и своя специфика или абсолютно новая идея поиска. Она есть?
В данном направлении была проведена большая исследовательская работа в рамках нашего института, разработаны (пока в теории) алгоритмы и т.д. и т.п. Дело осталось за малым – реализовать то, что разработано.
Предлагаю: воспользоваться результатами той самой большой исследовательской работы ;)
Могли бы Вы посоветовать, какие технологии программирования лучше использовать для такой задачи? Какие технологии для работы с базами данных нужны? Есть одно основное требование к данной системе. Необходимо, чтобы был встроенный движок СУБД, а не MySQL и т.п. Что в таком случае лучше использовать? Заранее благодарю за помощь и Ваше время.
Почитайте этот подфорум. Здесь много чего интересного есть. В том числе по устройству специализированой базы данных, по сканированию ресурсов, по инкрементному индексированию, по алгоритмам поиска и др.
Если из Москвы - в личку и встречаться в кафе ;)
Спасибо всем за исчерпывающие ответы. Много чего почерпнул из них.
Я из Беларуси, работаю в Объединенном институте информатике www.uiip.bas-net.by. Собственно работаю в данном направлении уже три года. Система получится (если все будет ОК) достаточно интересной, на мой взгляд, т.к. с учетом разработанной модели базы знаний у пользователя будет возможность настраивать поисковую систему на специфическую область поиска + она сможет сама адаптироваться под конкретного пользователя с учетом ранних его запросов. Пока планируем разработать ее, как отдельное приложение, дальше будем реализовывать в Интернете. Также будет возможность аннотировать и реферировать найденную информацию. Ну не будем загадывать :) Будем работать 🚬 Всем еще раз спасибо.
P.S. Если будут трудности, то надеюсь всегда на Вашу помощь
А почему бы не использовать для ваших задач Яндекс.Сервер?
Кроме того, хочу добавить насчет движка СУБД. Есть такая встраиваемая СУБД SQLite
GreenBee, а если подумать?
Если брать готовую, то посмотрите здесь перечень поисковых систем, программных модулей и технологий: http://info.asknet.ru/Analytics/programms.htm. Если интересует разработка и теория, то проектов с открытым исходным кодом поисковых систем довольно много. Например, посмотрите проект lucene.apache.org -
What Is Lucene?
The Apache Lucene project develops open-source search software, including:
Lucene Java, our flagship sub-project, provides Java-based indexing and search technology, as well as spellchecking, hit highlighting and advanced analysis/tokenization capabilities.
Droids is an intelligent robot crawling framework currently in incubation.
Lucene.Net is a source code, class-per-class, API-per-API and algorithmatic port of the Lucene Java search engine to the C# and .NET platform utilizing Microsoft .NET Framework. Lucene.Net is currently under incubation.
Lucy is a loose C port of Lucene Java, with Perl and Ruby bindings.
Mahout is a subproject with the goal of creating a suite of scalable machine learning libraries.
Nutch builds on Lucene Java to provide web search application software.
PyLucene is a Python port of the the Lucene Java project.
Solr is a high performance search server built using Lucene Java, with XML/HTTP and JSON/Python/Ruby APIs, hit highlighting, faceted search, caching, replication, and a web admin interface.
Tika is a toolkit for detecting and extracting metadata and structured text content from various documents using existing parser libraries.
" Программы и SDK распространяются на коммерческой основе. "
имхо, было бы лучше поделиться идеями и алгоритмами, которые (перед созданием на си) можно опробовать на пхп-морфологии
например, как приложить семантику к индексатору, чтобы выявлять бессмысленный набор текстов и тп
" Программы и SDK распространяются на коммерческой основе. "
...
например, как приложить семантику к индексатору, чтобы выявлять бессмысленный набор текстов и тп
1. Существует множество проектов создания поисковых систем с открытым исходным кодом (open source), в том числе lucene. Они распространяются НЕ не коммерческой основе.
2. Прикладывать семантику надо совместно с синтаксическим анализом, тогда эффект будет на порядок выше. Как это делать описано в алгоритмах работы лингвистических процессоров.
синтаксис - это правила построения предложений, а семантика - смысл предложения или словосочетания, верно ?