- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Кто-нибудь вплотную сталкивался с Nutch ? В последней версии (0.8) это серьозная разработка, обладающая хорошей масштабируемостью благодаря библиотеке hadoop, реализующей параллельные вычисления MapReduce (идеология, предложенная Google). Кроме того, в отличие от большинства известных мне open source поисковиков (mnogosearch, dataparksearch, aspseek), проект развивается, а также не использует SQL базу для хранения индекса.
На форуме встречаются лишь упоминания о нем, без конкретики. Хотелось бы узнать, насколько он эффективен, какие подводные камни?
Seventh Son, подем темы?
Eugen, это изобретение велосипеда. Еще 2-4 месяца, этот механизм сгинет в лету.
А если аргументировано? ;)
Основная проблема всех поисковых движков с открытым кодом в том, что они не умеют нормально масштабироваться в кластер.
Кроме того, надо,отметить, что заявленная производительность впечатляет. К сожалению, еще не успел протестировать поисковик лично.
Из примеров - www.adre.ru
Протестируйте на 100 Гигах, вопросы отпадут.
Протестируйте на 100 Гигах, вопросы отпадут.
Это проверенные данные или предположение?
Это предложение обкатать движок на Вашем серваке, чтобы понять особенности.
Велосипеды, знаете ли, надо обкатывать.
Ясное дело ;) Но тему я вообще-то создал для того, чтобы собрать априорную информацию. К сожалению поисковик пока что документирован слабо...
Кроме того, в отличие от большинства известных мне open source поисковиков (mnogosearch, dataparksearch, aspseek), проект развивается, а также не использует SQL базу для хранения индекса.
Слабо они вам известны, вы угадали только с aspseek, скорее всего случайно :)
На форуме встречаются лишь упоминания о нем, без конкретики. Хотелось бы узнать, насколько он эффективен, какие подводные камни?
Нет русской морфологии. Adre заявляет, что сами её прикрутили к Nutch, но... они открыты пока только на словах своих пресс-релизов, ссылок на морде, по которым можно скажать исходники их поисковика с русской морфологией и саму посиковую базу (если я правильно понял, они обещали и базу всем открыть) - таких ссылок нет, может пока :)
Слабо они вам известны, вы угадали только с aspseek, скорее всего случайно :)
Не скажите ;) aspseek - вообще клинический случай, заброшен уже несколько лет как. По остальным: mnogosearch - хранит все в базе, самый эфективный индекс - это в блоб-режиме (однако и это полностью SQL-режим со всеми вытекающими), dataparksearch - умеет хранить пост-листы отдельно от базы (в файлах), но тем не менее без SQL не может обойтись. Плюс ко всему, темпы развития всех вышеперечисленных поисковиков явно уступают Nutch.
Нет русской морфологии. Adre заявляет, что сами её прикрутили к Nutch, но... они открыты пока только на словах своих пресс-релизов, ссылок на морде, по которым можно скажать исходники их поисковика с русской морфологией и саму посиковую базу (если я правильно понял, они обещали и базу всем открыть) - таких ссылок нет, может пока :)
Русский язык поддерживается на уровне стемминга, что не так и плохо ;)
Я лично, например, не понимаю, какие последствия вытекают из SQL. Дело не в SQL, а в архитектуре. На самом деле и SQL можно использовать весьма эффективно.
Зато мне вполне понятно какие последствия могут вытекать из того, что натч написан на джаве. А это, как минимум, значительное проседание производительности в момент гарбедж коллекшена. Плюс надо обязательно тьюнить джава-машину по части расхода памяти (чтобы она не захватывала слишком много памяти), а возможно что-то еще.
Вот, например, mozdex.com использует натч, но он как я на него не зайду практически перманентно лежит, или отваливается на поиске, или на морде висит сообщение, что индекс на профилактике. Совпадение? Кто знает.
Да, разумеется использование джавы - это "минус", но как поется в песне: scalability - это "плюс" :)
Что я уже могу сказать о Натче, уже сейчас имею модифицированную версию с поддержкой русского стеминга, сразу надо заметить,что с кодом приятно работать (кроме отдельных модулей). Насчет производительности - надо тестировать.