- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
А по поводу cache-mode: все-таки это как-то некошерно иметь две версии индекса, одна из которых занимает весьма много места. А много это что-то порядка 4-5 размеров текста.
Что-то вы загнули сильно, никаких двух версий индекса нет, как и 4-5 размеров текста, у меня при 9.4 гига проиндексированного текста объём базы cached mode составляет 3.9 гига, + SQL-база весит 4.3 гига.
ну, хорошо, убедили. действительно, новая, хорошая фича.
5.2.2. Cache mode word indexes structure
The main idea of cache storage mode is that word index and URLs sorting information is stored on disk rather than in SQL database. Full URL information however is kept in SQL database (tables url and urlinfo). Word index is divided into number of files specified by WrdFiles command (default value is 0x300). URLs sorting information is divided into number of files specified by URLDataFiles command (default value is 0x300).
но все-таки прошу обратить внимание, что этой фичи нет в mnogosearch'е!
Что-то вы загнули сильно, никаких двух версий индекса нет, как и 4-5 размеров текста, у меня при 9.4 гига проиндексированного текста объём базы cached mode составляет 3.9 гига, + SQL-база весит 4.3 гига.
>Вот сейчас посмотрел всего два мега исходного джава кода.
>А вот, кстати, о каком скрипте идет речь в Вашем сообщение?
Так Вы же посмотрели скрипт. Исходники у Вас составляют всего 2 мега :)
А вообще я говорю о Nutch. Это ж понятно, если зайти по тем ссылка что я дал.
>Абсолютные пустяки.
Это о объеме или о схемовых решениях?
Если о самом коде, то интересно узнать Вы хоть пробовали запускать его?
P.S. совет, имхо не связывайте с поиском где задействованы SQL базы данных. Об этом вроде уже не раз говорилось на этом форуме :)
Пардон, может мы говорим о разных вещах? Запускать я его пока не пробовал. Только смотрел исходные тексты. Имел в виду то, что скачивается по адресу http://www.apache.org/dyn/closer.cgi/lucene/nutch/.
Там архив действительно под 50 метров, но из них java файлы занимают 2 с чем-то мегабайта, а остальное скомпилированные jar файлы. Я исхожу из соображений, что если коды открыты, то они все и должны скачиваться в одном архиве. Может, я конечно, чего-то недопонимаю.
>Вот сейчас посмотрел всего два мега исходного джава кода.
>А вот, кстати, о каком скрипте идет речь в Вашем сообщение?
Так Вы же посмотрели скрипт. Исходники у Вас составляют всего 2 мега :)
А вообще я говорю о Nutch. Это ж понятно, если зайти по тем ссылка что я дал.
>Абсолютные пустяки.
Это о объеме или о схемовых решениях?
Если о самом коде, то интересно узнать Вы хоть пробовали запускать его?
P.S. совет, имхо не связывайте с поиском где задействованы SQL базы данных. Об этом вроде уже не раз говорилось на этом форуме :)
опять-таки запускать я его только собираюсь, но если честно, то не понимаю какие страшные проблемы может вызвать хороший код такого не очень большого объема (2.5 мега). хотя, опять-таки, повторюсь может там действительно не все исходники выдаются?
14,6 МБ объем. Если вы только хотите смотреть ядро системы.
Если же вы будете прикручивать туда морфологический модуль (см. на примере Немецкого языка) и дополнительные фичи (что не идут в ядре) то код (в данном случае у меня) превышает 30 МБ.
Посмотреть такой объем даже бегло, за сутки достаточно проблематично.
я Вам там сообщение в личку послал, думаю, что нам уже хватит тут офтопить :-)
14,6 МБ объем. Если вы только хотите смотреть ядро системы.
Если же вы будете прикручивать туда морфологический модуль (см. на примере Немецкого языка) и дополнительные фичи (что не идут в ядре) то код (в данном случае у меня) превышает 30 МБ.
Посмотреть такой объем даже бегло, за сутки достаточно проблематично.
vrom, я имел ввиду тематическую поисковую систему, сабж.
Если у меня это решение станет тиражируемым - то $2000-4000
Если нужно просто mnogosearch поставить и настроить (а остальное сами сделаете) - то можно суппорту mnogosearch заплатить $300.
http://www.mnogosearch.ru/, насколько я понимаю?
Интересно, спасибо.