Без словарей и привязки слов к тематике - никак вообще; даже элементарный фильтр на мат в гостевой книге/форуме без словаря не сделать, а Вы говорите об определении тематики документов.
А уж если определять по словарю, то просто посчитать частоту встречания слов из Вашего словаря в анализируемом документе с учетом словоформ и без учета регистра написания; и суммировать частоты встречания слов внутри одной тематики. Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей... Это самый примитивный способ, который может быть довольно эффективным при наличии огромного словаря и грамотной привязке всех слов из него к определенным темам.
Если Вы о том, чтобы размещать статьи с блоком адсенс не на своем ресурсе - не делайте этого, может плохо кончиться. Предположим, что Вы разместили свою статью где-то и там даже разрешили оставить блоки адсенс; а после Вас на той же странице разместили что-то, что явным образом нарушает правила размещения. Вы не сможете устранить нарушения на этой странице, т.к. этот ресурс не Ваш; и в результате запросто можете получить бан.
В Вашем случае, лучше размещать ресурсы на своих сайтах; в крайнем случае - на фрихостинге/блоге, где не добавляют других рекламных блоков.
На своих сайтах, разумеется.
Или я неправильно понял Ваш вопрос?
Рассказал(а) Student
На втором курсе всех послали в близлежайшую поликлинику на медосмотр. Все друзья разбрелись по поликлинике. Я же прошел уже почти всех врачей, и остался мне один дерматолог. Захожу я в кабинет, а там сидит очень милое небесное создание на вид лет 20. Здороваюсь, она соответственно тоже, ну, типа проходите, присаживайтесь и т. д. Она смотрит мои ладони, после чего говорит:
- Снимайте брюки и трусы. (А я, честно говоря, на всякие медосмотры никогда не ходил, так как за меня и моих друзей всегда делала справки мать одного из них, поэтому не в курсе всех медицинских премудростей, но как говорится надо так надо...) Снимаю. Эта чудесная девушка своей нежной ручкой начинает "обследовать" все, что в этих брюках находилось. Реакцию организма 18-летнего парня представить нетрудно. Это "обследование" становится все более откровенным... В этот момент открывается дверь кабинета, заходит какая-то врачиха и почти кричит:
- Наташка, ты что делаешь?!
На что получает совершенно сногсшибательный ответ:
- МАМА, я пришла к тебе за ключами, тебя не было, и дежурная медсестра пустила меня к тебе в кабинет, чтобы я тебя подождала.
Полцарства я бы отдал в тот момент за зеркало, чтобы посмотреть на свою рожу...
На перле все значительно элегантнее:
use WWW::Google::PageRank;
my $pr = WWW::Google::PageRank->new;
print scalar($pr->get('http://www.yahoo.com/')), "\n";
почитать поподробнее о модуле можно здесь.
90% Гугл, 8% МСН, остальные 2% - alltheweb, altavista, ask, yandex. С рунетом практически не работаю, так что для меня Яндекс-последний в списке.
Разумеется, может - если у Вас shared хостинг. Может - в случае если у Вас VDS (меняет пароль root и заходит); и наверняка не может - если у Вас dedicated server, и Вы нормально настроили систему доступов на свой сервер.
Можно сделать свою нестандартную капчу, спама будет значительно меньше.
Например, просить пользователя в качестве подтверждения вводить не текст с картинки, который худо-бедно научились распозновать многие роботы, а что нибудь вроде результата операции 2 * 3 + 3. Нечто аналогичное есть и на блоге г-на Катса, так что идея не нова.
Ну и поле для ввода должно называться нестандартно, например e1lz2t.
Спамерам значительно проще найти сотню-другую форм без капчи или с капчей, которая преодолевается роботами, чем делать отмычку для Вашей персональной нестандартной капчи.
Насчет кликов точно не знаю, но показы фиксирует = 100%.
Как-то я отлаживал страничку локально, чтобы выложить потом на сервер; и при этом не отключил соединение с интернетом - после просмотра в браузере страничка отобразилась, и даже объявление адсенс тоже нормально показалось на этой странице.
Мое мнение, лучше не кликать по таким объявлениям; или если все-таки клик состоялся, отписаться в саппорт, чтобы его не засчитали (если клик был Ваш).
IMHO, идея не очень... Реклама-двигатель торговли, как в оффлайне на страницах будет отражаться контекстная реклама? Непонятно...
Что еще хранить в 200 Гб? Новости? Так особенность новостей в том, что они - свежие; вчерашние новости никому не нужны.
Музыка, видео, графика? 200 Гб маловато будет... И опять же скользкий вопрос об авторских правах и их соблюдении.
Мануалы, FAQ, энциклопедии и прочее, что относится к знанию/обучению? Это уже давно придумано в оффлайне - книги...
На первый взгляд, я не вижу смысла в подобном сервисе. Сомневаюсь, что он будет иметь коммерческий успех в случае его реализации.