Можно взять базу, вроде этой http://www.gzq.ru/ и менять логику в зависимости от города. Не думаю, что небольшие изменения контента по гео-данным повлекут за собой меры со стороны ПС.
Попробуйте сделать примерно вот так:
RewriteCond %{HTTP_HOST} ^(.+)\.site\.ru$ [NC] RewriteCond %{HTTP_HOST} !^www\.site\.ru$ [NC] RewriteRule ^(.*)\.site\.ru(.*) /$1$2 [L]
Т.е. перед парсингом "глазами" HTML никто не смотрит, и необходимо на машинном уровне отделить полезный контент от остального? В таком случае, это тема для отдельного раздела форума, или даже для отдельного форума :) Кстати, каковы Ваши результаты использования шиглов, если не секрет? На сколько глубоко канонизируете (приводите к именительному падежу и единственному числу или просто режете стоп-конструкции)? Сравнение страниц сайта для выделения постоянных фрагментов, лично мне, кажется наиболее эффективным. Вот только выпиливать HTML не стоит. Тэги могут служить отличными маркерами. Можно даже зайти под тупым углом и поиграть similar_text(), предварительно разбив срез страниц на строки... Так или иначе, поиск неточных совпадений просто бездонный предмет для экспериментов и обсуждения.
Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.
Если у Вас в системе были ссылки вида ...comment.php?..., то, разумеется, никуда они не денутся. С помощью mod_rewrite мы только "научили" сервер подменять входящий URL. Для того, чтобы изменить ссылки в системе, необходимо править её код.
Не могу понять фразу. Если возможно, чуть подробнее...
Непосредственно в каталог /engine положите .htaccess с содержимым:
RewriteEngine OnRewriteRule ^file([0-9]+)\.html$ comment.php?dlid=$1 [L]
С путями что-то. Проверяйте.
Если что, переписка опубликована с моего согласия.
Обнародуйте выдачу, пожалуйста.