Чистка каталогов от мусора (признаки)

12 3
Ice_sCream
На сайте с 23.06.2005
Offline
116
2222

Чтобы облегчить работу модераторам каталогов (часто бывает так, что модератор один, а каталогов у него в подчинении много), написал простенький скрипт.

Скрипт этот адаптирован на работу с каталогами Made-Cat. Алгоритм прост: перебираются все ссылки и те, которые не подходят по определенным параметрам, удаляются.


<?

include "configuration.php";


$db_user=DB_USER;
$db_pass=DB_PASSWORD;
$db_name=DB_NAME;
$db_host=DB_HOST;

function sql_connect()
{
global $db_user, $db_pass, $db_name, $db_host;
$db=mysql_connect($db_host, $db_user, $db_pass);
mysql_selectdb($db_name);
// mysql_db_query($db_name,"SET NAMES cp1251");
return $db;
}

sql_connect();


$query = "SELECT url,id FROM dna_links Where visible=1";
$result = mysql_query ($query) or die(__LINE__."Query $query failed: " . mysql_error());

while(list($url,$id) = mysql_fetch_row($result))
{

if ((substr_count($url, "/")>3)||(substr_count($url, ".htm")>0)||(substr_count($url, ".php")>0)||(substr_count($url, "@")>0))
{

$query2="DELETE FROM dna_links where id=$id";
$result2=mysql_query($query2) or die(__LINE__."Query $query2 failed: " . mysql_error());

echo "Удален урл: $url <br/>";
}


}


?>

Что примечательно, сам являюсь регистратором (см. подпись), но откровенного мусора еще ни разу в сеть не пускал. Однако "коллеги" иногда меня убивают излишне пренебрежительным отношением к подобной работе. Скрипт удаляет:

- внутренние страницы сайта (которые содержат в урле htm, html, php и более 3 слешей;

- запостенные е-мейлы (бывают и такие).

Советую выставить в cron и запускать раз в неделю (день, месяц) в зависимости от популярности каталога.

О результатах: с моих 5 каталогов было вычищено 250 урлов мусора. Вот так я месяцок не занимался каталогами.

Ну и главное:

- какие можно добавить признаки (включая, анализ описаний, доменных зон и так далее);

- может стоит завести черный список доменных имен (у меня честь товарищи, которые постоянно постят поддомены одного из доменов, вот его можно было бы добавить в спам-лист)?

- ваши соображения.

passing the acid test
Ice_sCream
На сайте с 23.06.2005
Offline
116
#1

Вижу, что тема не популярная, но зато помогает тем, кому надо. Буквально за день:

Удален урл: http://www.lublu.com.ua/index.php

Удален урл: http://www.lapidus.ru/catalog.php?ids=395&sub_id=11

Удален урл: http://www.base.vse-boards.com/obyv278330.html

Удален урл: http://www.orangesmile.com/ru/netherland.htm

Удален урл: http://www.voyage-luxe.ru/egypt/

Удален урл: http://mptk.ru/price/6.html

travolta
На сайте с 15.05.2006
Offline
16
#2

Спасибо за ваш скрипт. Я правда не понял как его установить. Не могли бы объяснить плс!?

С уважением, Сергей.
Ice_sCream
На сайте с 23.06.2005
Offline
116
#3
travolta:
Спасибо за ваш скрипт. Я правда не понял как его установить. Не могли бы объяснить плс!?

1. Создаёте файл с расширением php, копируете приведенный код и помещаете в главную папку с каталогом.

2. Затем заспукаете, ваш_домен/скрипт.php

Всё предельно просто. Но это если у вас made-cat.

kit
На сайте с 01.05.2001
Offline
190
kit
#4

Рекомендую проанализировать ключевые кейворды на просроченных доменах, не знаю как для .ru, но для зоны .com очень помогает.

Master-X.com (http://www.master-x.com) - крупнейшее сообщество русскоязычных эдалт вебмастеров.
I
На сайте с 29.04.2006
Offline
135
#5

У меня есть скрипт для CNCat( под mskcat тож подходит.) для удаления спама:

Сравнение титлов и описаний по первым n символам

Функция сравнивает титл с описанием по n символам и выводит. После , можно их удалить.

Поиск мелких описаний и титлов (количество символов)

Поиск мелких титлов и описаний. Очень полезная функция. Допустим ловить описания меньше 20 символов.. или названия меньше 10 символов. А такие бывают.

Поиск мелких описаний и титлов (количество слов ( разделение между словами считаются пробелы))

Тоже самое, только уже по количеству слов.

Поиск по спец. знакам.(Например поиск спама от 1ps или поиска перечисления ключевиков)

Выбераешь знак. Ставишь число. И он находит все описания, где более n символов таких знаков.

Ice_sCream
На сайте с 23.06.2005
Offline
116
#6

Про кол-во символов в описаниях и названиях есть функция в самом скрипте и работает она при добавлении ресурса.

Сравнение первых символов еще не означает откровенный спам. Например:

Расрутка сайта - название

Раскрутка сайта, продвижение сайта и прочие услуги оказывает компания ...

Про спецзнаки не понял.

Как искать перечисления ключевиков? Это интересно, но нужен алгоритм.

travolta
На сайте с 15.05.2006
Offline
16
#7

catal0g.info/antispam.php - неработает скриптик :(

Подскажите в чём может быть трабл?

I
На сайте с 29.04.2006
Offline
135
#8
Ice_sCream:
Про кол-во символов в описаниях и названиях есть функция в самом скрипте и работает она при добавлении ресурса.

Сравнение первых символов еще не означает откровенный спам. Например:
Расрутка сайта - название
Раскрутка сайта, продвижение сайта и прочие услуги оказывает компания ...

Про спецзнаки не понял.

Как искать перечисления ключевиков? Это интересно, но нужен алгоритм.

1. Количество символов и описания...функции не вижу. Покрайней мере проходят такие описания и титлы в каталог почемут. Разговор идёт про CNCat (бесплатная версия) и построенном на нём mskcat.

2. Ну да. А если сравнить по первым 50 символам? 40? 30?...некоторый спам поймать всёж моно.. видь всё проверено личным опытом.

3. Спецзнаки. Я ищу в описаниях знаки. Допустим моно выбрать один из знаков: . , ! @ итд. И указать число. И если в тексте таких символов больше, чем число. То выводит такие описания.

4. Обычно ключевики гонят по запятым. Так вот - можно отследить по поиску спецзнака... Могу выложить если кому интересно.

Да, если у кого есть ещё идеи по поиску спама. Говорите - будем реализовывать и без проблем выложу тут.

I
На сайте с 29.04.2006
Offline
135
#9
kit:
Рекомендую проанализировать ключевые кейворды на просроченных доменах, не знаю как для .ru, но для зоны .com очень помогает.

Чтот я не понял. Вы предлагаете каждый сайт проверять на просроченность доменов??

Вы представляете загрузку сервака..? И время, нужное для этого?

I
На сайте с 29.04.2006
Offline
135
#10
travolta:
catal0g.info/antispam.php - неработает скриптик :(

Подскажите в чём может быть трабл?

Трабл описан в ошибке.

Написано, что таблицы dna_links не существует.

1) Возможно у вас преффикс таблиц не dna_

2) Незнаю.. может в другой версии MadeCat другие таблицы? Но врятли... смотрите 1 вариант.

Когда писал свое творение:) Не знал о прекрасной функции substr_count.. пришлось использовать то, что есть. Но тоже хорошо работает.

Дописал в свою коллекцию и этот скрипт. Вычесляет ссылки с html,php страницами. Также с / более трёх и партнёрские ссылки.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий