Хмм... А фильтрация по User-Agent - не вариант?
Можно использовать лишь средства СУБД?
Если же нет, предлагаю оптимальный вариант для известных компаний:
Открываем страницу ru.wikipedia.org с названием компании, парсим поле "отрасль", ищем совпадения этого поля с названием, данным в таблице, можно использовать словари синонимов, для увеличения точности. Все довольно просто :)
Просто Яндекс определен как синоним слову Google
Пожалуй это действительно хороший вариант, однако в таком случае более острой станет проблема неоднозначности запроса... То есть по одному-двум словам затруднительно определить, что именно интересует пользователя, тут проблему частично решат учет интересов (на основе предыдущих запросов) и поведенческие факторы, а также поиск по категориям, построенный на автоматической классификации страниц.
Всмысле "использовать ресурсы серверов хостеров.", не совсем понял?
Бред... .htaccess не индексируется...
Уже отстают от графика.---------- Добавлено 15.07.2012 в 19:07 ----------
Изложил принцип контекстной рекламы...
Жаль, что в данный момент концепция некоммерческого поиска не жизнеспособна, а то что есть крайне уступает коммерческим аналогам. Возможно будет абонплата с определенными гарантиями, хотя...
Написано же "идеальная"...
http://stats.wikimedia.org/archive/squid_reports/2012-01/SquidReportCrawlers.htm