Zute

Рейтинг
32
Регистрация
03.01.2004

Посмотрите еще http://www.dataparksearch.org/ и http://www.mnogosearch.org/

По фичам скорее превосходят myWebsearch, плюс распространяются под GPL.

Кстати, нашел кое-что о подребностях в железе для Nutch, если кому интересно:

http://www.nutch.org/cgi-bin/twiki/view/Main/HardwareRequirements

Только вот данные по гугловому поисковику вы привели двухлетней давности. Сейчас это выглядит так:

GB-1001

The GB-1001 is a rack-mounted two-unit (2U) appliance that can be licensed to search up to 1.5 million documents at a rate of 300 queries per minute.

http://www.google.com/appliance/products.html

Некоторые поисковые движки, например, ASPSeek и DataparkSearch весь текст между <!--noindex--> и <!--/noindex--> не индексируют. Чем раньше "большие дяди" поисковики это начнут воспринимать, тем лучше - это более кошерный способ, чем невалидный тэг <noindex>

Иметь аналог robots.txt для классификации частей контента сайта по возрастному цензу - не такая уж и плохая идея :)

ASPSeek кушает, может ещё кто.

Есть ещё <!--htdig_noindex--> - только что нашёл Гуглом :)

Есть ещё вариант с <!--noindex-->...<!--/noindex-->

Но вот понимает ли это Яндекс, я не знаю, хотя вариант кошерный :)

Как писал mnt

ну смотря что ты понимаешь под фичами 😂

Хм, насколько я помню, это именно ты заявил, что aspseek превосходит всех фичами. Так я слушаю, какими ?

Как писал mnt


Кстати, у dpsearch в cache mode ссылки то не учитываются ;).

По-моему, это религиозное заблуждение, всё прекрасно работает. Эта фича никак не связана с используемым методом хранения, ни в dpsearch, но в mnogosearch...

Как писал mnt


.... настройки влиящие очень сильно на скорость индексации, у aspseek всё более гибко настраивается.

Например, какие настройки и чего ?

Как писал mnt

вообщем, если тебе придется настраивать поиск на большом, огрооомном сайте с кучей страниц, не поленись и сравни dpsearch и aspseek. ;)

Угу, а ты попробуй на большом числе огромных сайтов с индексацией вглубь, т.е. не по 10-100 страниц с каждого, а скажем по 5-10 тыс...

Как писал mnt

я говорю с чем имел дело не один месяц и при очень инсивном использовании, это же касается и фич.

А назвать эти фичи можете ?

Например, mnogosearch dpsearch умеют сортировать результаты по релевантности, дате, популярности, важности, mnogosearch еще умеет сортировать по заданой секции документа.

в mnogosearch и dpsearch можно использовать регулярные выражения для вырезания той или иной части документа (для индексации или отдельного хранения).

с помощью dpsearch можно индексировать rss фиды, чтобы уменьшить трафик по ежедневному поиску обновлений сайта.

Что такого есть в aspseek ?

Как писал absolut
. Когда стало 2 млн, то поиск проходил за 1-15 сек. Думаю, если было бы 1Gb памяти, то поиск укладывался в 1 секунду.
Одно плохо - там нет ссылочного ранжирования.

Хотя память для aspseek и важна, при росте базы в один момент может перестеть работать обновление из-за нехватки этой самой памяти. На скорость больше влияет скорость винта и его загруженность, (чем больше памяти, тем лучше кэширование дисковых операций :) это же верно и для mnogosearch с dpsearch, хотя последний много чего может держать в памяти в предзагруженом состоянии, чтобы нагрузка на винт сильно не сказывалась.

Тестом для aspseek может быть поиск по слову (двум-трём :), наиболее часто встречающемуся на большинстве серверов, например, таким словом может быть слово "google" при поиске на dmoz.org.

Всего: 218