Тематическая поисковая система (до 1000 сайтов) - как делать? - Поисковые технологии - Практические вопросы оптимизации - Форум об интернет-маркетинге

vrom · 2026-07-01T11:07:41.0000000Z

Вопрос: Как лучше делать англоязычную тематическую поисковую машину, совмещенную с каталогом ресурсов и баннерокрутилкой? Предполагаемые параметры: 1000 сайтов (можно считать 100 стараниц в среднем, типичная обновляемость сайтов - раз в 2-4 недели или даже реже). Посещаемость проекта 500-3000 в день (на первом этапе) - сколько хитов затрудняюсь сказать. Сейчас есть выделенный сервер (P4 1Gb RAM, 80 GB, Linux FC2) Уже поставил mnogosearch, phpadsnew. CMS будет TYPO3 (потому что в основном с ней работаю, главную страницу и страницу поиска естественно сделаю вне TYPO3) Больше всего смущает mnogosearch, опыта с ним у меня мало. Может быть, стоит использовать http://www.dataparksearch.org/ ? Естественно, рассматривается задача подружить каталог и поисковую машину (индексировать сайты из каталога). Заранее благодарю за ответы!

Z

32

Zute

26 декабря 2005, 15:47

#61

itman:

А по поводу cache-mode: все-таки это как-то некошерно иметь две версии индекса, одна из которых занимает весьма много места. А много это что-то порядка 4-5 размеров текста.

Что-то вы загнули сильно, никаких двух версий индекса нет, как и 4-5 размеров текста, у меня при 9.4 гига проиндексированного текста объём базы cached mode составляет 3.9 гига, + SQL-база весит 4.3 гига.

I

64

itman

26 декабря 2005, 16:13

#62

ну, хорошо, убедили. действительно, новая, хорошая фича.

5.2.2. Cache mode word indexes structure

The main idea of cache storage mode is that word index and URLs sorting information is stored on disk rather than in SQL database. Full URL information however is kept in SQL database (tables url and urlinfo). Word index is divided into number of files specified by WrdFiles command (default value is 0x300). URLs sorting information is divided into number of files specified by URLDataFiles command (default value is 0x300).

но все-таки прошу обратить внимание, что этой фичи нет в mnogosearch'е!

Zute:
Что-то вы загнули сильно, никаких двух версий индекса нет, как и 4-5 размеров текста, у меня при 9.4 гига проиндексированного текста объём базы cached mode составляет 3.9 гига, + SQL-база весит 4.3 гига.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

Отчет о конференции User Проектирование удобных доменных имен Роман Мандрик Вирусный маркетинг:

128

Evg

26 декабря 2005, 16:29

#63

>Вот сейчас посмотрел всего два мега исходного джава кода.

>А вот, кстати, о каком скрипте идет речь в Вашем сообщение?

Так Вы же посмотрели скрипт. Исходники у Вас составляют всего 2 мега :)

А вообще я говорю о Nutch. Это ж понятно, если зайти по тем ссылка что я дал.

>Абсолютные пустяки.

Это о объеме или о схемовых решениях?

Если о самом коде, то интересно узнать Вы хоть пробовали запускать его?

P.S. совет, имхо не связывайте с поиском где задействованы SQL базы данных. Об этом вроде уже не раз говорилось на этом форуме :)

libarea.ru ( https://libarea.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 декабря 2005, 16:40

#64

Пардон, может мы говорим о разных вещах? Запускать я его пока не пробовал. Только смотрел исходные тексты. Имел в виду то, что скачивается по адресу http://www.apache.org/dyn/closer.cgi/lucene/nutch/.

Там архив действительно под 50 метров, но из них java файлы занимают 2 с чем-то мегабайта, а остальное скомпилированные jar файлы. Я исхожу из соображений, что если коды открыты, то они все и должны скачиваться в одном архиве. Может, я конечно, чего-то недопонимаю.

Evg:
>Вот сейчас посмотрел всего два мега исходного джава кода.
>А вот, кстати, о каком скрипте идет речь в Вашем сообщение?
Так Вы же посмотрели скрипт. Исходники у Вас составляют всего 2 мега :)
А вообще я говорю о Nutch. Это ж понятно, если зайти по тем ссылка что я дал.
>Абсолютные пустяки.
Это о объеме или о схемовых решениях?
Если о самом коде, то интересно узнать Вы хоть пробовали запускать его?
P.S. совет, имхо не связывайте с поиском где задействованы SQL базы данных. Об этом вроде уже не раз говорилось на этом форуме :)

опять-таки запускать я его только собираюсь, но если честно, то не понимаю какие страшные проблемы может вызвать хороший код такого не очень большого объема (2.5 мега). хотя, опять-таки, повторюсь может там действительно не все исходники выдаются?

128

Evg

26 декабря 2005, 16:46

#65

14,6 МБ объем. Если вы только хотите смотреть ядро системы.

Если же вы будете прикручивать туда морфологический модуль (см. на примере Немецкого языка) и дополнительные фичи (что не идут в ядре) то код (в данном случае у меня) превышает 30 МБ.

Посмотреть такой объем даже бегло, за сутки достаточно проблематично.

Снова о GDPR и Запрет индексации части страницы? Выявление накрутки подписчиков, комментариев

I

64

itman

26 декабря 2005, 17:03

#66

я Вам там сообщение в личку послал, думаю, что нам уже хватит тут офтопить :-)

Evg:
14,6 МБ объем. Если вы только хотите смотреть ядро системы.
Если же вы будете прикручивать туда морфологический модуль (см. на примере Немецкого языка) и дополнительные фичи (что не идут в ядре) то код (в данном случае у меня) превышает 30 МБ.
Посмотреть такой объем даже бегло, за сутки достаточно проблематично.

348

MaulNet

26 декабря 2005, 20:48

#67

vrom, я имел ввиду тематическую поисковую систему, сабж.

84

vrom

26 декабря 2005, 22:48

#68

vrom, я имел ввиду тематическую поисковую систему, сабж.

Если у меня это решение станет тиражируемым - то $2000-4000

Если нужно просто mnogosearch поставить и настроить (а остальное сами сделаете) - то можно суппорту mnogosearch заплатить $300.

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)

348

MaulNet

27 декабря 2005, 09:49

#69

http://www.mnogosearch.ru/, насколько я понимаю?

Интересно, спасибо.

Что такое Power BI и зачем это нужно бизнесу

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Тематическая поисковая система (до 1000 сайтов) - как делать?