Тематическая поисковая система (до 1000 сайтов) - как делать?

Z
На сайте с 03.01.2004
Offline
32
#61
itman:

А по поводу cache-mode: все-таки это как-то некошерно иметь две версии индекса, одна из которых занимает весьма много места. А много это что-то порядка 4-5 размеров текста.

Что-то вы загнули сильно, никаких двух версий индекса нет, как и 4-5 размеров текста, у меня при 9.4 гига проиндексированного текста объём базы cached mode составляет 3.9 гига, + SQL-база весит 4.3 гига.

I
На сайте с 26.05.2001
Offline
64
#62

ну, хорошо, убедили. действительно, новая, хорошая фича.

5.2.2. Cache mode word indexes structure

The main idea of cache storage mode is that word index and URLs sorting information is stored on disk rather than in SQL database. Full URL information however is kept in SQL database (tables url and urlinfo). Word index is divided into number of files specified by WrdFiles command (default value is 0x300). URLs sorting information is divided into number of files specified by URLDataFiles command (default value is 0x300).

но все-таки прошу обратить внимание, что этой фичи нет в mnogosearch'е!

Zute:
Что-то вы загнули сильно, никаких двух версий индекса нет, как и 4-5 размеров текста, у меня при 9.4 гига проиндексированного текста объём базы cached mode составляет 3.9 гига, + SQL-база весит 4.3 гига.
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
Evg
На сайте с 12.07.2004
Offline
128
Evg
#63

>Вот сейчас посмотрел всего два мега исходного джава кода.

>А вот, кстати, о каком скрипте идет речь в Вашем сообщение?

Так Вы же посмотрели скрипт. Исходники у Вас составляют всего 2 мега :)

А вообще я говорю о Nutch. Это ж понятно, если зайти по тем ссылка что я дал.

>Абсолютные пустяки.

Это о объеме или о схемовых решениях?

Если о самом коде, то интересно узнать Вы хоть пробовали запускать его?

P.S. совет, имхо не связывайте с поиском где задействованы SQL базы данных. Об этом вроде уже не раз говорилось на этом форуме :)

libarea.ru ( https://libarea.ru/ )
I
На сайте с 26.05.2001
Offline
64
#64

Пардон, может мы говорим о разных вещах? Запускать я его пока не пробовал. Только смотрел исходные тексты. Имел в виду то, что скачивается по адресу http://www.apache.org/dyn/closer.cgi/lucene/nutch/.

Там архив действительно под 50 метров, но из них java файлы занимают 2 с чем-то мегабайта, а остальное скомпилированные jar файлы. Я исхожу из соображений, что если коды открыты, то они все и должны скачиваться в одном архиве. Может, я конечно, чего-то недопонимаю.

Evg:
>Вот сейчас посмотрел всего два мега исходного джава кода.
>А вот, кстати, о каком скрипте идет речь в Вашем сообщение?
Так Вы же посмотрели скрипт. Исходники у Вас составляют всего 2 мега :)
А вообще я говорю о Nutch. Это ж понятно, если зайти по тем ссылка что я дал.
>Абсолютные пустяки.
Это о объеме или о схемовых решениях?
Если о самом коде, то интересно узнать Вы хоть пробовали запускать его?
P.S. совет, имхо не связывайте с поиском где задействованы SQL базы данных. Об этом вроде уже не раз говорилось на этом форуме :)

опять-таки запускать я его только собираюсь, но если честно, то не понимаю какие страшные проблемы может вызвать хороший код такого не очень большого объема (2.5 мега). хотя, опять-таки, повторюсь может там действительно не все исходники выдаются?

Evg
На сайте с 12.07.2004
Offline
128
Evg
#65

14,6 МБ объем. Если вы только хотите смотреть ядро системы.

Если же вы будете прикручивать туда морфологический модуль (см. на примере Немецкого языка) и дополнительные фичи (что не идут в ядре) то код (в данном случае у меня) превышает 30 МБ.

Посмотреть такой объем даже бегло, за сутки достаточно проблематично.

I
На сайте с 26.05.2001
Offline
64
#66

я Вам там сообщение в личку послал, думаю, что нам уже хватит тут офтопить :-)

Evg:
14,6 МБ объем. Если вы только хотите смотреть ядро системы.
Если же вы будете прикручивать туда морфологический модуль (см. на примере Немецкого языка) и дополнительные фичи (что не идут в ядре) то код (в данном случае у меня) превышает 30 МБ.
Посмотреть такой объем даже бегло, за сутки достаточно проблематично.
MaulNet
На сайте с 07.08.2005
Offline
348
#67

vrom, я имел ввиду тематическую поисковую систему, сабж.

vrom
На сайте с 15.12.2005
Offline
84
#68
vrom, я имел ввиду тематическую поисковую систему, сабж.

Если у меня это решение станет тиражируемым - то $2000-4000

Если нужно просто mnogosearch поставить и настроить (а остальное сами сделаете) - то можно суппорту mnogosearch заплатить $300.

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)
MaulNet
На сайте с 07.08.2005
Offline
348
#69

http://www.mnogosearch.ru/, насколько я понимаю?

Интересно, спасибо.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий