А среди кого урл поисковика распространялся ? :)
Шепните его здесь, и узнаете "большные" запросы оптимизаторов :d
У mnogosearch и dataparksearch есть виртуальная схема htdb для индксирования содержимого базы.
a9 - не совсем гугл, вернее только движок от него (по любому запросу a9 находит гораздо меньше результатов, нежели Гугл), возможно с некоторыми своими модификациями. Плюc они продвигают opensearch - любой поисковик может сделать поддерджку этого интерфейса и зарегистрировать его на a9, тогда пользователи a9 смогут получать результаты и этого поисковика через морду a9 - получается нечто вроде мета-поисковика, только более открытого.
А ещё dataparksearch - он кстати, под Solaris 10 x86 с PostgreSQL собирается при помощи gcc :)
А если времени ещё хватит всё это сравнить межсобой и в общую табличку свесть - будет весь полезно и наверное весьма посещаемо в ближайшее время :d
http://en.wikipedia.org/wiki/List_of_internet_search_engines - как Лист Гинеса потянет ?
Пример с медициной явно неудачный, - там отдельный язык для каждого языка :) В TREC даже отдельная дорожка для био-медицинской тематики проводится, т.к. юзаются отдельные антологии, нежели для обычного английского... Не говоря уже, что в медицине главное не сайты, а базы, в первую голову рефератов публикаций, уже аннотированых, и для которых уже существуют специализированные поисковики, над улучшением которых корпеет не один универ. Вам их не перплюнуть :)
Это выборка из моей базы, никакой другой ссылки нет...
Эти проценты от общего числа сайтов. За прошедшие 4 года появилось гораздо больше CMS на сайтах, которые закрывают свою админку и т.п. "технологические" урлы через robots. Плюс Яндекс добавил директиву Host: и немного её пропиарил - лишний повод поинтересоваться, что это за вещь этот robots.txt...
Кстати, всего 0,02% используют директиву crawl-delay в robots.txt - вот это и есть "чрезвычайно редко" :)
У этих же сайтов у примерно 25,5% в robots.txt прописана хотябы одна команда Disallow, из них у 24,99% - хотябы в одной команде Disallow указан непустой путь; у 3.2% - хотябы одна команда Allow...
На выборке из примерно 16 тыс. сайтов robots.txt оказался у примерно 28% сайтов, - не назвал бы такую долю чрезвычайно редкой.