Все зависит от проекта. Если стоит криво настроенный апач с каким-нибудь тяжелым движком с 500 запросами к БД на страницу, то и 0.1 запросов в секунду может не потянуть :)
Если стоит nginx, который сам отдает статику и используется кеширование, например, объектов в memcached, то можно и пару десятков запросов в секунду вытянуть и больше.
int(1) отличается от int(11) только форматом вывода, например, консольной командой mysql. Для хранения они оба занимают 4 байта.
Если у Вас всего 9 значений, то лучше использовать tinyint или enum.
По скорости разница может быть заметна только на очень больших таблицах и большом кол-ве запросов, т.к в теории базе данных надо читать больше блоков с диска для обработки запроса и объем занимаемой памяти тоже растет, что может несколько отрицательно сказаться на кешировании.
А вообще стоит оптимизировать только тогда, когда реально тормозит. Преждевременная оптимизация часто не на пользу.
Заказал прогон 1го сайта вчера, выполнено быстро и качественно. На мыло упало где-то 1600+ спама. На вскидку больше половины написали о добавлении. Посмотрим через некоторое время на результаты.
Вы еще работаете? Написал вам пару дней назад в личке, ответа нет...
Угу ;) Это я как-то упустил. IP адреса действительно разные. Это я сказал к тому, что это способ избавить веб сервер от обработки запросов.
Веб сервер все равно эти запросы вынужден обработать, даже если будет редирект.
Заблочить можно на более низком уровне, например, iptables но для этого нужен root вроде бы.
хорошая коллекция ссылок разных. Внизу есть ссылки по IR
http://www.miralab.ru/tools/service/
морфология
http://www.aot.ru/
стемминг
http://linguist.nm.ru/stemka/stemka.html
Стемминг этот кстати вполне себе работает. Портировал его на php и юзал в поиске по сайту. Хорошее решение на сильно ограниченном хостинге (читай дешевом ;)
ps. А Вам мб подойдет просто нечеткий поиск в строке по шаблонам без заморочек с классификацией и тп.
Например вот: http://en.wikipedia.org/wiki/Naive_Bayes_classifier
Вцелом работает неплохо, если процент неверных определений не особо критичен.
Есть вроде более точные методы типа SVM (Support Vector Machine) и др, но их я пока не пробовал только присматриваюсь.
Ну с точки зрения системы это отдельная страница. Дубли вроде склеиваются независимо от индексатора и тп. Т.е с задержкой.
btw, яндекс не так давно сделал server free edition