Rishpik, текс может храниться в БД. В самом скрипте, в таком случае, будет только переменная или функция для его вывода.
ЗЫ. Но если хочешь, то можно поискать и по русскому тексту, и по копирайту... Но более надежно по html-тегу, который с большой вероятностью будет уникальным и меститься в тех же файлах или папке, что и остальной html-код.
Rishpik, не русский текст (текст может отдаваться сервером и в коде скрипта его может и небыть), а html-код страницы (<div id='footer'> к примеру искать. )
http://www.wordhord.com/2009/03/total-commander-search/ - как искать по файлам.
А зачем массово? Может лучше по мере регистрации юзеров? Можно и совсем бесплатно ;)
Смотреть в код страницы(в браузере)... искать уникальный класс или id внизу кода страницы. запустить поиск по содержанию файлов скрипта в тотале.
У яндекса есть директива HOST. Воспользуйтесь поиском по форуму и мануалом того же яндекса.
Почитайте про зеркала сайта.
Если хотите получить побольше фильтров, то можно продить дубли...)))
Можно написать небольшой плагин к тому же ВП.
Для яндекса 10к контента это много?
Не сказал бы. Для яндекса много 10к контента с плотностью ключа больше определенного %. Вот такую портянку он и фильтрует.
Есть... Походу внутренняя переспамлена ключем, а с главной у вас, наверно, ссылка на эту внутреннюю страницу с соотвественным анкором.
В итоге:
главная релевантна запросу;
внутряк зафильтрован.
АаАа.... Базилик... сними его...