Так ответьте прямо: баг исправлен или нет?
Размер проблем составляет человеко-год доработок для создания распределённого поисковика на основе aspseek. Со слов его создателя.
Что мне надо, я сам сделаю. Спасибо.
Причём тут что я хочу? Мы вроде разбирали разницу между метой и опенсоурс поисковиками? И Вы тоже утверждаете, что мету ("конфетку") из них не получить. В чём тогда дискуссия? Зачем личностные наезды про "плохо вы разобрались, точнее вообще не разбирались, раз у вас такие мысли", если итоги размышлений схожи?
Везде после 1 млн. документов индексированных возникают проблемы. Ни у одного не указана возможность масштабирования в кластер. Пока из масштабируемых нашёл только Harvester (древний Framework), Lucene (в стадии разработки), Nutch (Java, в стадии разработки).
Видел в форуме AspSeek предложение использовать его на нескольких машинах следующим образом: каждый сервер индексирует свою часть интернета, затем на поисковой машине идёт слияние результатов поиска по этим серверам (своеобразный метапоиск). Те, кто пробовали, очень сетовали на итоговую выдачу.
В форуме mnogosearch есть ответ по поводу масштабируемости - очень слабая масштабируемость. В рамках деления поисковика на части.
DataparkSearch тоже можно разделить по серверам на части: отдельно положить MySQL базу, отдельно краулер, отдельно индексатор. Масштабируемость на уровне разрезания. Никакой нормальной масштабируемости у них не нашёл.
Если поправите или дадите ссылочку на масштабируемый поисковик - буду очень рад.
Сомнительно. Разная идеология. Насколько уже разобрался, все эти поисковики - решения для одной машины. Для больших объёмов индексирования нужна масштабируемая архитектура с оптимизацией на стоимость процессорного времени, о чём Брин с Пейджем твердили ещё в 1997 лохматом году. А распределённой и масштабируемой архитектуры у перечисленных проектов как раз-таки и нет.
lib.nexter.ru - и список законов, и описание прецендента. Мне на самом деле интересно мнение г-на Ашманова. Мои познания не так велики, а у них, наверняка, над этим юристы работали.
Можно. А вот создавать продукты на основе содержания: поисковик, дор или там в виде книжки опубликовать - это уже отдельной разрешение нужно. Таковы законы. 🙄
Думаете, что боты-ядексоиды начнут охоту на закатывание в асфальт?
Я вот всё сижу и думаю: может мне в суд подать на владельцев этих адресов? Я же не давал им письменное разрешение на копирование моей информации. Заметьте, закон требует не запрет (robots.txt), а разрешение ;) Что Вы мне посоветуете?
Нужно для исследования поисковых машин. Поэтому готов приобрести и сентябрьскую-октябрьскую статистику Рамблера. А так же, по видимому, и стать постоянным покупателем.
Из них лишь 48 уникальных (не дупов). И многие либо не связаны с рекомендациями Zute данного поисковика, либо содержат несколько поисковых движков (типичный пример).