Поисковая система (нужна помощь)

0

WLB

24 августа 2006, 07:55

2564

Дамы и Господа!

Решил я попробывать заняться разработкой поисковичка (пока только для немецких сайтов в зоне .de), исключительно в образовательных целях (возможно, при удачном исходе установлю потом на свой портал).

Вопросов появилось куча. Кое-какие вопросы решил благодаря этому форуму. Но до конца так и не улавливаю (не могу разработать концепт) как работает поисковик.

С С++ раньше сам не работал, хочу заняться параллельно с разработкой концепта для поисковика изучением С++. Если вас не затруднит, ткните пальцем в книги, где можно более подробно прочитать о алгоритмах, разработке файловых систем и т.д (о всем, что необходимо для разработки поисковой машины), по возможности с примерами на С++. Зашел на озон, а что заказать не знаю.

И хватит ли ниже указанных компонентов для начала разработки поисковика?

Линия:

во время разработки 6.000 кбит/сек.

потом будет установлена 16.000 кбит/сек.

Сервер (тестовый):

HDD: 1 TB

RAM: 4 GB

CPU: AMD Athlon 64 3700+ (2200 MHz)

Спасибо за ответы!

26

asdfqwer

24 августа 2006, 08:05

#1

на codenet.ru глянь

WB

0

WLB

24 августа 2006, 08:22

#2

asdfqwer:
на codenet.ru глянь

Спасибо! Добавил в закладки, полезный ресурс.

Да, может кто подскажет, какую ОС лучше использовать для этих целей?

Остановился на SUSE Linux или FREEBSD.

34

snoopckuu

24 августа 2006, 08:51

#3

WLB, freebsd одназначно если выбирать только из этих двух.

Писать с нуля - идея не лучшая.

http://searchengines.o0o.ru/ обсуждение алгоритмов и уже готовых поисковых механизмов - open source.

Пользуйтесь.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)

WB

0

WLB

24 августа 2006, 09:18

#4

snoopckuu:
WLB, freebsd одназначно если выбирать только из этих двух.
Писать с нуля - идея не лучшая.

Спасибо за ссылочку!

Так все дело в том, что не хочу готовое. Хочу изучить существующие алгоритмы и попробывать с нуля написать сам.

Я рассматриваю это как хобби, 2-3 года готов инвестировать в самообразование (в свободное от основной работы время), бюджет не ахти, но на покупку дополнительных серверов в дальнейшем, литературы и т.д должно хватить 15-20.000 евро.

34

snoopckuu

24 августа 2006, 09:37

#5

WLB, такие деньги для само образования не нужны, хотя если для серверов и сколько вы уже занимаетесь программирование, если вы вообще не знаете с++ то идея - гибиль.

WB

0

WLB

24 августа 2006, 10:04

#6

snoopckuu:
WLB, такие деньги для само образования не нужны, хотя если для серверов и сколько вы уже занимаетесь программирование, если вы вообще не знаете с++ то идея - гибиль.

Первый компьютер купил в 97 году, с 98 начал интересоваться программированием, с 2000 года "профессионально" занимаюсь разработкой ПО.

Пишу в основном на:

- VB

- VB.NET

- ASP.NET

- DELPHI

- PHP

Работаю с:

- MSSQL

- MYSQL

В С++ имею чисто теоритические знания, проектов не было. В принципе я быстообучем, к тому же имею идею (пока еще не доработанную) над которой хочу потрудиться + огромное желание учиться дальше. Как я уже писал, время у меня есть, было бы здоровье! :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

N

100

Newm

24 августа 2006, 14:37

#7

WLB:
Первый компьютер купил в 97 году, с 98 начал интересоваться программированием, с 2000 года "профессионально" занимаюсь разработкой ПО.

Расскажу одну историю...

Был у меня "программист". Писал быстро, проги РАБОТАЛИ.

Но в какой-то момент мне потребовалось сделать прогу посложнее - необходимо было несколько дел делать одновременно (получалось примерно 3 потока). И стал он изобретать велосипед, вместо использования стандартных методик:(.

Если не изобретать, то прога почти элементарная (так и пришлось мне ее самому писать за 3 дня). А он попытался сделать свою синхронизацию. Три недели писал... Сдает на тест, а в тесте глюк. Этот глюк исправил - вылезло 2 новых. 2 новых правит, вылазит самый первый и еще пара новых. Через месяц после просрочки поставленного срока, он был вынужден сказать, что он не сможет написать так, чтобы она работала. (еще через 2 недели, я вынужден был потратить 3 дня своего времени, чтобы НАПИСАТЬ С ЧИСТОГО ЛИСТА эту заразу, т.к. она была крайне необходима).

Вывод:

1) Изобретать велосипед стоит в очень редких случаях.

2) У любого программиста существует свой потолок сложности, который он не может перепрыгнуть.

3) Написать прогу с чистого листа часто бывает проще, чем исправить баги в чужой.

4) Если нет культуры программирования, то потолок программиста очень низок. При этом у очень редкого любителя ПХП, ВБ и дельфи имеется нормальная культура программирования:(.

34

snoopckuu

25 августа 2006, 05:10

#8

WLB,

Работаю с:
- MSSQL
- MYSQL

тут видите у вас сразу - прокол, использование одной из этих БД да и вообще SQL-like поисковой машины свыше 5млн документов - не проиндексируеш.

Newm,

полностью согласен.

S

17

statev

29 августа 2006, 06:42

#9

snoopckuu]

>тут видите у вас сразу - прокол, использование одной из этих БД да и вообще SQL-like поисковой машины свыше 5млн документов - не проиндексируеш.

Можно узнать, откуда это число - 5 млн.? Какая разница, сколько документов, лишь бы в базу влезли. Хоть 1 млрд. Другое дело, что скорость отработки будет ниже, чем у бинарного файла. Но можно поставить 1тыс серверов, на каждом будет работать mysql, и все прекрасно будет крутиться. Такое впечатление, что те, кто делали СУБД, вообще не смыслят в структурах данных. СУБД - готовая структура, которой очень удобно пользоваться. У Доброва в МГУ все работает на Оракл, и неплохо работает. Все зависит от задач. Если делать большую поисковую машину с временем отработки <1 сек, да, СУБД будет тяжеловата. А если делать корпоративный поиск, где можно подождать секунд 5, скорее всего, все будет хорошо. Просто базу нужно использовать как структуру для хранения документов. А выдергивать результаты, конечно, не помощью оператора like.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

29 августа 2006, 08:34

#10

statev, SQL-LIKE имелось в виду не использование LIKE запроса для поиска по базе а всех баз связанных с SQL. Я не вижу смысла ставить 1000 серверов для Mysql если это можно сделать на 100 без использование его или денег много выбрасывать в пустоту?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

Вышел новый Яндекс Браузер с YandexGPT и YandexART