sergey24

sergey24
Рейтинг
180
Регистрация
12.08.2005

сайты по нч сильно упали многие

betam:
=) И что, предлагаете яндексу поднапрячься и индексировать гифы? =0
А юзверам платить за траффик дестять тыщ мильёнов?

Бороться можно методом определения ботов по дибильному поведению. Но а) это сложно
б) бота можно научить быть похожим на человечика

Вон даже бедненький корбис не может бороться со скачивальщиками фотграфий, всевозможные жёлтые странчки не могут никак побороть парсеры...
=)

Кстати, имхо последние версии вгета и иже с ними настолько образованы, что не отличаются от человека по поведению... Скачать практически любой сайт на 100мбит канале - не вопрос. И тут уже и гифы распознать можно, и текст из эмулятора браузера вытащить...

гифы я привел на краяняк

а вот функция кодирования и пароль для бота поискового

это дельная вещь

нужно только с поисковыми системами договорится, что бы ни банили сайты за кодированый контент, а ip бота можно и самому определить - их ни так уж и много.

просто собратся всем нужно и написать коллективное письмо всем поисковым системам.

Вот исходжник этой функции



class mosHTML {
/**
* simple Javascript Cloaking
* email cloacking
* by default replaces an email with a mailto link with email cloacked
*/
function emailCloaking( $mail, $mailto=1, $text='', $email=1 ) {
// convert text
$mail = mosHTML::encoding_converter( $mail );
// split email by @ symbol
$mail = explode( '@', $mail );
$mail_parts = explode( '.', $mail[1] );
// random number
$rand = rand( 1, 100000 );

$replacement = "\n<script language='JavaScript' type='text/javascript'> \n";
$replacement .= "<!-- \n";
$replacement .= "var prefix = 'ma' + 'il' + 'to'; \n";
$replacement .= "var path = 'hr' + 'ef' + '='; \n";
$replacement .= "var addy". $rand ." = '". @$mail[0] ."' + '@'; \n";
$replacement .= "addy". $rand ." = addy". $rand ." + '". implode( "' + '.' + '", $mail_parts ) ."'; \n";
if ( $mailto ) {
// special handling when mail text is different from mail addy
if ( $text ) {
if ( $email ) {
// convert text
$text = mosHTML::encoding_converter( $text );
// split email by @ symbol
$text = explode( '@', $text );
$text_parts = explode( '.', $text[1] );
$replacement .= "var addy_text". $rand ." = '". @$text[0] ."' + '@' + '". implode( "' + '.' + '", @$text_parts ) ."'; \n";
} else {
//$text = mosHTML::encoding_converter( $text );
$replacement .= "var addy_text". $rand ." = '". $text ."';\n";
}
$replacement .= "document.write( '<a ' + path + '\'' + prefix + ':' + addy". $rand ." + '\'>' ); \n";
$replacement .= "document.write( addy_text". $rand ." ); \n";
$replacement .= "document.write( '<\/a>' ); \n";
} else {
$replacement .= "document.write( '<a ' + path + '\'' + prefix + ':' + addy". $rand ." + '\'>' ); \n";
$replacement .= "document.write( addy". $rand ." ); \n";
$replacement .= "document.write( '<\/a>' ); \n";
}
} else {
$replacement .= "document.write( addy". $rand ." ); \n";
}
$replacement .= "//--> \n";
$replacement .= "</script>";
$replacement .= "<noscript> \n";
$replacement .= _CLOAKING;
$replacement .= "\n</noscript>";

return $replacement;
}

function encoding_converter( $text ) {
// replace vowels with character encoding
$text = str_replace( 'a', 'a', $text );
$text = str_replace( 'e', 'e', $text );
$text = str_replace( 'i', 'i', $text );
$text = str_replace( 'o', 'o', $text );
$text = str_replace( 'u', 'u', $text );

return $text;
}

dimanaz:
sergey24, ваше сообщение - изрядная глупость.

Текст либо зашифрован и его невозможно впринцыпе прочитать без знания ключа, либо он не зашифрован. То что вы предлагаете - замета текста на некий JS код, формирующий текст. Этот JS код может быть либо выполнен, либо распарсен.

ИНформацию от копирования защитить невозможно.

Я пытаюсь бротся с массовым копированием (парсингом), а не копированием отдельных страних.

Массово только парсят роботами.

Текст можно либо зашифровать JS

либо порезать на gif и выводить по частям - тут кому что лучше нравится.

Мне проще закодировать через JS

angr:
а как по Вашему мнению договорятся ПС между собой, смогут ли, будут ли?

любое действие на ограничение вызывает противодествие...

как я говорил выше, сам являюсь собствеником уникального контента, и у меня его заимствуют, но я не волнуюсь и не обижаюсь, мой сайт по любому в выдаче практически всех ПС на первой позиции, недавно и яК приняли на халяву...

МОЕ ЛИЧНОЕ мнение - что бан за неуникальность контента это просто фантазии...

Вам просто повезло.

А с поисковиками нужно беседовать.

Им же легче будет работать.

меньше спама, меньше объема, меньше затратов ресурсов и т.д.

Вы все не в ту степь пошли.

Интернет - это ИТ технологии и нужно защищаться так же.

У меня у самого куча досок, справочников и т.д.

Я знаю по себе , что такое парcинг и как быстро падает траф.

Вот что я предлагаю:

в JS есть функции которые шифруют текст. т.е. юзеру они видны, а в хтмл нет.

Не знаю на сколько они хорошо работают - но если плохо, можно поднапрячься и сделать свои.

Идем далее.

При добавлении сайта в поисковики нужно ввести еще одно поле - пароль сайта.

Для рунета это всего яша рама гугл.

Когда робот приходит на сайт индексировать - запрашиваем пароль

В случае удачи даем не кодированную информацию, всем остальным кодированную.

Этот метод спасет от массового парсинга.

досок, каталогов, справочников, сми и т.д.

Для отдельных статей можно в том же js запретить виделять и копировать текст - как это сделал тот же директ.

Все остальное тоже самое...

И не нужно ни каких левых организаций, кучу денег на их содержание и т.д.

Но это должны поддержать поисковики – без их это ни что.

XTR:
Сейчас некоторые так называемые парсильщики, которые парсят все, что угодно - от каталогов, досок объявлений, форумов до статей начинают жаловаться, что на их сайтах падает трафик. У меня такое впечатление, что Яндекс начал бороться с воровством контента. Есть и свои наблюдения некоторые.

Вот и ваши сайты ведать упали :)

А Вы говорили что у меня руки не из того места 😆

я новый сайт вообще не добавлял в яшу

по каталогам прогнал

он сам пришел

правда ползает вяло

раньше по шустрее было

Павел Васин:
За тексты и картинки порнографического содержания, на страницах на которых показывается Бегун, банили и банить будем. Это одно из тех немногочисленных правил работы с нами, которое мы не готовы никак обсуждать.

Это хорошо конечно.

А как же быть с досками.

На них публикуются в сутки более 2000 объявлений

в том числе есть объявления и интимного содержания мягко говоря.

не реально все проверить, а если несколько досок то тем более...

Скажите сразу, Вы их тоже собираетесь банить?

Павел Васин:
Все клики засчитываются.
Показаны в интерфейсах будут.
Причина события: изменения внутренних механизмов обсчета статистики.
Причин для беспокойства в любом случае нет.

что и требовалось доказать.

Паниковать из-за 10 баксов - пустое дело :)

Всего: 885