Сделайте mysql-таблицу и создайте пул откуда он будет брать данные для дальнейшей работы - Поисковые технологии

создание поисковика

kasperlet · 2005-08-10T11:11:18.0000000Z

доброго всем для ..просьба сильно не пинать если вопрос избитый или топик засунул не в ту тему... приехал сегодня с командировки и пришла в голову идея разобраться с работой поисковых машин и создать свою. (просто для себя из чистого любопытства к деталям реализации) не подскажите с чего начать ..есть ликакая нить теория создания поисковиков, примерчики в исходниках, теоритические детали реализации ну и все что связано с этой темой... если не трудно подскажите и если есть можно линки выложит на полезные для меня ресурсы

K

3

kasperlet

15 августа 2005, 13:00

#21

хотя что то я зашео в тупик ..получаеться между потоками нужно организовать очереди тоесть создать для каждого потока пул откуда он будет брать данные для дальнейшей работы ...никто не подскажет по оптимальной организации очередей?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

15 августа 2005, 14:16

#22

По-моему совсем некритично это. Вариантов много как реализовать. Сделайте например mysql-таблицу, и в неё складывайте документы, у каждого - флажок, взят ли каким-то из потоков-парсеров на индексацию, обработан ли.

30

lagif

15 августа 2005, 21:37

#23

Наверняка лучше всего, чтобы индексатор индексировал сразу несколько потоков. Можно, конечно, организовать хранение распарсенных страниц в виде разделяемого ресурса (если все верно организовано, небольшой буфер разделяемой оперативки переполняться не должен), можно - в виде тех же таблиц mysql... все дело в фантазии, разве нет?

Это тоже пройдет...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

3

kasperlet

16 августа 2005, 05:42

#24

ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))

281

pro-maker

16 августа 2005, 07:01

#25

kasperlet, Вы случайно не Нигму переписываете?

K

3

kasperlet

16 августа 2005, 09:17

#26

а что такое Нигма ???

K

3

kasperlet

16 августа 2005, 13:44

#27

так ну вроде бегать по страничкам вытаскивая из них урлы у меня получилось может кто подскажет оптимальную структуру бд для хранения индексированных данных

Z

32

Zute

16 августа 2005, 18:18

#28

Нигма: http://www.nigma.ru/ - метапоисковик.

[Удален]

16 августа 2005, 18:30

#29

kasperlet:
ок сенки всем кто помогает буду фантазировать..хотя вариант с хранением данных в табличках БД легче реализовать но я предполагаю что в таком варианте будет реальная нагрузка на дисковую подсистему+не возникает в таких случаях ситуации наложения тоесть пока поток ставит флаг в таблице что запись перешла на индексирование другой поток успеет ее схватить тоже ? (В общем спасибо буду мыслить))

Нагрузки не возникнет на диск, т. к. если между считыванием страницы качальщиком и началом обработки индексатором времени не много пройдет - она в кеше с большой вероятностью останется.

Наложения тоже не будет. Как раз за счет использования mysql эта проблема сама по себе решится.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

lagif

16 августа 2005, 19:34

#30

kasperlet, Уж сколько копий здесь сломано. В конечном счете каждый строит либо гебридную БД, либо что-то совсем свое. Читайте маны, станете рутом. Есть, кстати, в этом разделе тред про подбор СУБД. Читайте. Очень полезный тред. Ваш покорный слуга (или покорная?) в свое время его и начинала...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что такое Power BI и зачем это нужно бизнесу

Вышел новый Яндекс Браузер с YandexGPT и YandexART

создание поисковика