Eddie

Eddie
Рейтинг
36
Регистрация
12.07.2006

Без словарей и привязки слов к тематике - никак вообще; даже элементарный фильтр на мат в гостевой книге/форуме без словаря не сделать, а Вы говорите об определении тематики документов.

А уж если определять по словарю, то просто посчитать частоту встречания слов из Вашего словаря в анализируемом документе с учетом словоформ и без учета регистра написания; и суммировать частоты встречания слов внутри одной тематики. Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей... Это самый примитивный способ, который может быть довольно эффективным при наличии огромного словаря и грамотной привязке всех слов из него к определенным темам.

Если Вы о том, чтобы размещать статьи с блоком адсенс не на своем ресурсе - не делайте этого, может плохо кончиться. Предположим, что Вы разместили свою статью где-то и там даже разрешили оставить блоки адсенс; а после Вас на той же странице разместили что-то, что явным образом нарушает правила размещения. Вы не сможете устранить нарушения на этой странице, т.к. этот ресурс не Ваш; и в результате запросто можете получить бан.

В Вашем случае, лучше размещать ресурсы на своих сайтах; в крайнем случае - на фрихостинге/блоге, где не добавляют других рекламных блоков.

На своих сайтах, разумеется.

Или я неправильно понял Ваш вопрос?

Рассказал(а) Student

На втором курсе всех послали в близлежайшую поликлинику на медосмотр. Все друзья разбрелись по поликлинике. Я же прошел уже почти всех врачей, и остался мне один дерматолог. Захожу я в кабинет, а там сидит очень милое небесное создание на вид лет 20. Здороваюсь, она соответственно тоже, ну, типа проходите, присаживайтесь и т. д. Она смотрит мои ладони, после чего говорит:

- Снимайте брюки и трусы. (А я, честно говоря, на всякие медосмотры никогда не ходил, так как за меня и моих друзей всегда делала справки мать одного из них, поэтому не в курсе всех медицинских премудростей, но как говорится надо так надо...) Снимаю. Эта чудесная девушка своей нежной ручкой начинает "обследовать" все, что в этих брюках находилось. Реакцию организма 18-летнего парня представить нетрудно. Это "обследование" становится все более откровенным... В этот момент открывается дверь кабинета, заходит какая-то врачиха и почти кричит:

- Наташка, ты что делаешь?!

На что получает совершенно сногсшибательный ответ:

- МАМА, я пришла к тебе за ключами, тебя не было, и дежурная медсестра пустила меня к тебе в кабинет, чтобы я тебя подождала.

Полцарства я бы отдал в тот момент за зеркало, чтобы посмотреть на свою рожу...

На перле все значительно элегантнее:

use WWW::Google::PageRank;

my $pr = WWW::Google::PageRank->new;

print scalar($pr->get('http://www.yahoo.com/')), "\n";

почитать поподробнее о модуле можно здесь.

90% Гугл, 8% МСН, остальные 2% - alltheweb, altavista, ask, yandex. С рунетом практически не работаю, так что для меня Яндекс-последний в списке.

Разумеется, может - если у Вас shared хостинг. Может - в случае если у Вас VDS (меняет пароль root и заходит); и наверняка не может - если у Вас dedicated server, и Вы нормально настроили систему доступов на свой сервер.

Можно сделать свою нестандартную капчу, спама будет значительно меньше.

Например, просить пользователя в качестве подтверждения вводить не текст с картинки, который худо-бедно научились распозновать многие роботы, а что нибудь вроде результата операции 2 * 3 + 3. Нечто аналогичное есть и на блоге г-на Катса, так что идея не нова.

Ну и поле для ввода должно называться нестандартно, например e1lz2t.

Спамерам значительно проще найти сотню-другую форм без капчи или с капчей, которая преодолевается роботами, чем делать отмычку для Вашей персональной нестандартной капчи.

Насчет кликов точно не знаю, но показы фиксирует = 100%.

Как-то я отлаживал страничку локально, чтобы выложить потом на сервер; и при этом не отключил соединение с интернетом - после просмотра в браузере страничка отобразилась, и даже объявление адсенс тоже нормально показалось на этой странице.

Мое мнение, лучше не кликать по таким объявлениям; или если все-таки клик состоялся, отписаться в саппорт, чтобы его не засчитали (если клик был Ваш).

IMHO, идея не очень... Реклама-двигатель торговли, как в оффлайне на страницах будет отражаться контекстная реклама? Непонятно...

Что еще хранить в 200 Гб? Новости? Так особенность новостей в том, что они - свежие; вчерашние новости никому не нужны.

Музыка, видео, графика? 200 Гб маловато будет... И опять же скользкий вопрос об авторских правах и их соблюдении.

Мануалы, FAQ, энциклопедии и прочее, что относится к знанию/обучению? Это уже давно придумано в оффлайне - книги...

На первый взгляд, я не вижу смысла в подобном сервисе. Сомневаюсь, что он будет иметь коммерческий успех в случае его реализации.

Всего: 306