Не знаю, если php extensions CGI-запрос разбирают при помощи библиоткеки mnogosearch, то да, а если сами, то не известно.
Есть почтовые рассылки ru@mnogosearch.org и php@mnogosearh.org - их девелоперы наверняка читают. См. http://www.mnogosearch.org/list.html
Для 3.2.10 и более ранних версий есть эксплоит, дающий возможность выполнения команд через дырку в search.cgi, правда работающий только под Linux, но всё равно лучше проапгрейдиться.
Версия 3.1.х не поддерживается, там правятся только баги, связанные с безопасностью. Поэтому лучше использовать версию 3.2.х, да и документация на 3.2 намного лучше и есть на русском (входит в дистрибутив)
1. здесь скорее всего дело не в mnogosearch, а в команде HTDBDoc, которая в любом случае возвращает ответ HTTP 200 вне зависимости от присутствия документа в базе.
2. Эт не проблема mnogosearch, вернее не совсем его. При выполнении команды HTDBList высасывается весь ответ сервера, а его выполение зависит от системы, хватит ли у неё ресурсов переварить такой ответ. Хотя возможно ещё на это влияет максимально возможный размер документа, по-моему в 3.1. он может изменяться только с перекомпиляцией.
3. чего нет, того нет.
В любом случае, советую пропробовать 3.2
Ровно так же как с meta keywords, meta description и прочая, куда всякий пишет кто во что горазд. Поэтому усилия надо направить на правку мозгов роботу, а не вебмастерам :) - сдаётся мне что эта идея с Host: мертворождённая...
Более-менее какую-либо защиту можно обеспечить только введя отдельный mirrors.txt (по аналогии с robots.txt), в котором описывать все возможные зеркала и требованием его идентичности на всех зеркалах.
Кстати, а с чего решено, что именно без проверки ? У меня об это ни гу-гу...
Тогда намного логичнее директивой Host указывать каноническое имя веб сервера, в том виде, как его хочет видеть вебмастер. Это решит проблемы 2 и 3, да и позволит роботу автоматом конвертировать все линки в кононическое представление и сразу определять дупликаты.
mnogosearch и aspseek не требуют каких-либо заточек для работы с русским языком. Обе неплохо справляются с 1-1.5 млн. проиндексированных страниц. Хотя предел скорее всего зависит от железа :)
mnogosearch писан на С, aspseek на С++ - может это позволит сделать выбор.
Документацию на русском по mnoGoSearch можно найти на:
http://sochi.net.ru/~maxime/doc/mnogosearch/index-ru.html
А описание cache mode даётся на:
http://sochi.net.ru/~maxime/doc/mnogosearch/msearch-ru-cachemode.html