wdsg

wdsg
Рейтинг
31
Регистрация
09.02.2009

Можно взять базу, вроде этой http://www.gzq.ru/ и менять логику в зависимости от города. Не думаю, что небольшие изменения контента по гео-данным повлекут за собой меры со стороны ПС.

Попробуйте сделать примерно вот так:

RewriteCond %{HTTP_HOST} ^(.+)\.site\.ru$ [NC]

RewriteCond %{HTTP_HOST} !^www\.site\.ru$ [NC]
RewriteRule ^(.*)\.site\.ru(.*) /$1$2 [L]

Т.е. перед парсингом "глазами" HTML никто не смотрит, и необходимо на машинном уровне отделить полезный контент от остального? В таком случае, это тема для отдельного раздела форума, или даже для отдельного форума :) Кстати, каковы Ваши результаты использования шиглов, если не секрет? На сколько глубоко канонизируете (приводите к именительному падежу и единственному числу или просто режете стоп-конструкции)? Сравнение страниц сайта для выделения постоянных фрагментов, лично мне, кажется наиболее эффективным. Вот только выпиливать HTML не стоит. Тэги могут служить отличными маркерами. Можно даже зайти под тупым углом и поиграть similar_text(), предварительно разбив срез страниц на строки... Так или иначе, поиск неточных совпадений просто бездонный предмет для экспериментов и обсуждения.

Определить характерные особенности контентных блоков, и, при проходе краулером, осаживать только контент, выделяя его из HTML каждой страницы регулярками.

Если у Вас в системе были ссылки вида ...comment.php?..., то, разумеется, никуда они не денутся. С помощью mod_rewrite мы только "научили" сервер подменять входящий URL. Для того, чтобы изменить ссылки в системе, необходимо править её код.

accide:
когда переходишь по ссылке урл остается все равно в php виде

Не могу понять фразу. Если возможно, чуть подробнее...

Непосредственно в каталог /engine положите .htaccess с содержимым:

RewriteEngine On
RewriteRule ^file([0-9]+)\.html$ comment.php?dlid=$1 [L]

С путями что-то. Проверяйте.

Если что, переписка опубликована с моего согласия.

srarwars:
к сожалению ничего не получилось.

Обнародуйте выдачу, пожалуйста.

Всего: 392