Странник

Рейтинг
10
Регистрация
31.10.2005
Павел Васин:
Гиперконтекст не ставит ссылок внутри <a href=.....></a>

Так ответьте прямо: баг исправлен или нет?

mnt:
aspseek самый быстрый из перечисленных, если вы разработчик, то нет никаких проблем переделать всё под себя, тем более что исходники aspseek'а очень хороши.

Размер проблем составляет человеко-год доработок для создания распределённого поисковика на основе aspseek. Со слов его создателя.

mnt:
на самом деле все очень прозрачно, выдача как выдача, баги есть, люди их фиксят, если вам ооочень надо всё можете пофиксить :)

Что мне надо, я сам сделаю. Спасибо.

mnt:
вы слишком многое хотите от халявных разработок.
не найдете, то что вам нужно, если сами не будете "напильником" под себя затачивать. НО и в этом случае конфетку не получите.

Причём тут что я хочу? Мы вроде разбирали разницу между метой и опенсоурс поисковиками? И Вы тоже утверждаете, что мету ("конфетку") из них не получить. В чём тогда дискуссия? Зачем личностные наезды про "плохо вы разобрались, точнее вообще не разбирались, раз у вас такие мысли", если итоги размышлений схожи?

mnt:
плохо вы разобрались, точнее вообще не разбирались, раз у вас такие мысли ;)

Везде после 1 млн. документов индексированных возникают проблемы. Ни у одного не указана возможность масштабирования в кластер. Пока из масштабируемых нашёл только Harvester (древний Framework), Lucene (в стадии разработки), Nutch (Java, в стадии разработки).

Видел в форуме AspSeek предложение использовать его на нескольких машинах следующим образом: каждый сервер индексирует свою часть интернета, затем на поисковой машине идёт слияние результатов поиска по этим серверам (своеобразный метапоиск). Те, кто пробовали, очень сетовали на итоговую выдачу.

В форуме mnogosearch есть ответ по поводу масштабируемости - очень слабая масштабируемость. В рамках деления поисковика на части.

DataparkSearch тоже можно разделить по серверам на части: отдельно положить MySQL базу, отдельно краулер, отдельно индексатор. Масштабируемость на уровне разрезания. Никакой нормальной масштабируемости у них не нашёл.

Если поправите или дадите ссылочку на масштабируемый поисковик - буду очень рад.

Константин:
Я так понимаю тема "заглохла", а жаль... :(
Может получиться у меня оживить... :)
Я сам с Украины, и хорошего отечественного поисковика нет на просторах Уанета, а жаль...
Может ли какой либо движок превзойти по качеству поиска украинскую поисковую систему meta.ua ?
или по другому можно поставить вопрос:
"Возможно ли, на каком либо из упомянутых движков создать поисковую систему которая превзойдет по качеству поиска meta.ua и приблизиться хотябы на чучуточку к гуглу? "

Сомнительно. Разная идеология. Насколько уже разобрался, все эти поисковики - решения для одной машины. Для больших объёмов индексирования нужна масштабируемая архитектура с оптимизацией на стоимость процессорного времени, о чём Брин с Пейджем твердили ещё в 1997 лохматом году. А распределённой и масштабируемой архитектуры у перечисленных проектов как раз-таки и нет.

Miha Kuzmin (KMY):
Список законов в студию. И преценденты тоже.

lib.nexter.ru - и список законов, и описание прецендента. Мне на самом деле интересно мнение г-на Ашманова. Мои познания не так велики, а у них, наверняка, над этим юристы работали.

greenwood:
а читать то хоть можно ? :)

Можно. А вот создавать продукты на основе содержания: поисковик, дор или там в виде книжки опубликовать - это уже отдельной разрешение нужно. Таковы законы. 🙄

Miha Kuzmin (KMY):
Я, конечно, не Ашманов, но посоветовал бы убить себя с разбегу :)

Думаете, что боты-ядексоиды начнут охоту на закатывание в асфальт?

Ashmanov:
Сергей, Вы совершенно правы. Хочу только заметить, что Вы пишете это на форуме, который посвящён исключительно выкачиванию чужих сайтов для показа посторонним людям. Здесь вообще ни о чём другом не разговаривают.
Конечно, выкачка сайтов с целью показывать их всем, кому угодно, возмутительна и бесчестна. Я советую Вам для начала забанить на своём сайте следющие адреса:
66.249.65.***
213.180.206.***
81.176.76.***
Подлые хозяева этих IP выкачивают сайты не по-детски - десятками тысяч страниц и показывают их потом кому угодно, в том числе Вашим конкурентам.

Я вот всё сижу и думаю: может мне в суд подать на владельцев этих адресов? Я же не давал им письменное разрешение на копирование моей информации. Заметьте, закон требует не запрет (robots.txt), а разрешение ;) Что Вы мне посоветуете?

Jamming:
Если не секрет, что за нужды?

Нужно для исследования поисковых машин. Поэтому готов приобрести и сентябрьскую-октябрьскую статистику Рамблера. А так же, по видимому, и стать постоянным покупателем.

Vyacheslav Tikhonov:
Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)

Из них лишь 48 уникальных (не дупов). И многие либо не связаны с рекомендациями Zute данного поисковика, либо содержат несколько поисковых движков (типичный пример).

Всего: 68