создание поисковика

1 234
K
На сайте с 10.08.2005
Offline
3
#21

хотя что то я зашео в тупик ..получаеться между потоками нужно организовать очереди тоесть создать для каждого потока пул откуда он будет брать данные для дальнейшей работы ...никто не подскажет по оптимальной организации очередей?

[Удален]
#22

По-моему совсем некритично это. Вариантов много как реализовать. Сделайте например mysql-таблицу, и в неё складывайте документы, у каждого - флажок, взят ли каким-то из потоков-парсеров на индексацию, обработан ли.

lagif
На сайте с 15.12.2004
Offline
30
#23

Наверняка лучше всего, чтобы индексатор индексировал сразу несколько потоков. Можно, конечно, организовать хранение распарсенных страниц в виде разделяемого ресурса (если все верно организовано, небольшой буфер разделяемой оперативки переполняться не должен), можно - в виде тех же таблиц mysql... все дело в фантазии, разве нет?

Это тоже пройдет...
K
На сайте с 10.08.2005
Offline
3
#24

ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))

pro-maker
На сайте с 08.12.2003
Offline
281
#25

kasperlet, Вы случайно не Нигму переписываете?

K
На сайте с 10.08.2005
Offline
3
#26

а что такое Нигма ???

K
На сайте с 10.08.2005
Offline
3
#27

так ну вроде бегать по страничкам вытаскивая из них урлы у меня получилось может кто подскажет оптимальную структуру бд для хранения индексированных данных

Z
На сайте с 03.01.2004
Offline
32
#28

Нигма: http://www.nigma.ru/ - метапоисковик.

[Удален]
#29
kasperlet:
ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))

Нагрузки не возникнет на диск, т. к. если между считыванием страницы качальщиком и началом обработки индексатором времени не много пройдет - она в кеше с большой вероятностью останется.

Наложения тоже не будет. Как раз за счет использования mysql эта проблема сама по себе решится.

lagif
На сайте с 15.12.2004
Offline
30
#30

kasperlet, Уж сколько копий здесь сломано. В конечном счете каждый строит либо гебридную БД, либо что-то совсем свое. Читайте маны, станете рутом. Есть, кстати, в этом разделе тред про подбор СУБД. Читайте. Очень полезный тред. Ваш покорный слуга (или покорная?) в свое время его и начинала...

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий