itman

Рейтинг
64
Регистрация
26.05.2001

Что такое дедикейтед-айпи и чем он отличается от пёрсонал? Потом, судя по статистике сайтмепс заходит-то он весьма и весьма часто, но вот новые странички не забирает, а 404ый вот уже полгода не решается выкинуть из индекса :-)

если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.

ok, спасибо добавлю!

Zute:
Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d

Было бы странно, если бы я отвечал всегда в духе: попробуйте яндекс-сервер, или яндекс-сервер это умеет. что в документации это не написано? ну дык он все равно умеет, недокументированная фича.

PS: бренд яндекс-сервер заменить на любой по вкусу

Везде, где упоминается слово Datapark, там Zute. Может быть, что и может. Одна из недокументированных фич, заключающая в том, что, видимо, можно несколько DBAddr написать.

К нему это к натчу? Я не знаю подробностей "скармливания" ему начального списка URLs. По поводу базы: я имел в виду, что натч не использует СУБД, а данные раскладывает в файлы.

Neolite:
То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?

1) Натч не использует базу

2) Datapark не позволяет, насколько я знаю, искать распределенно.

3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет. Что умеет на эту тему натч, я точно не знаю.

Neolite:
А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?

Ну, есть подозрение, что нужно распределенное решение. На одной машине вряд ли потянет. Mnogosearch вроде сейчас может быть распределенным, но cache mode он больше не поддерживает http://mnogosearch.org/doc/msearch-cachemode.html Вместо него некий блоб-моде, прои него ничего не могу сказать по части скорости.

А какой, если не секрет, поисковик работает сейчас, сколько машин он занимает, и чем он не устраивает. Навскидку, можно попробовать nutch он, вроде распределенный. FTP, по идее, должен поддерживать.

Вот, кстати, по поводу ссылок из форума. Их же много, может это смущать гугль?

Всего: 444