Насколько идеален ДС Finder как средство установления уникальности контента

durdana
На сайте с 31.10.2008
Offline
57
601

После рерайта статьи при первой проверке ДС Finder определил контент как уникальный, после второй нашёл около десяти ссылок, где дублируется статья, над которой работал. Появились сомнения в достаточной эффективности вышеуказанной программы. Насколько они оправданы?

С уважением, durdana.

Сельскохозяйственная доска объявлений (http://agrowww.ru/)
S2
На сайте с 07.01.2008
Offline
611
#1

Praide получше считается. А ещё лучше фразы в поисковики напрямую забить.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
SS
На сайте с 02.02.2009
Offline
116
#2

dcfinder

textcalc

antiplagiat.ru

copyscape.com

если все четыре сервиса показывают уникальность, значит так оно и есть. У них разные алгоритмы проверки информации.

Str256:
Praide получше считается. А ещё лучше фразы в поисковики напрямую забить.

если забить напрямую, то предложение может быть и не уникальным, а абзац быть.

Просто есть предложения, которые просто лексически невозможно переделать.

Например Добро пожаловать! )

A
На сайте с 03.04.2009
Offline
15
#3
durdana:
Появились сомнения в достаточной эффективности вышеуказанной программы. Насколько они оправданы?

Оправданы. Алгоритм проверки далеко не идеален. После подобных ошибок начал пользоваться сразу несколькими программами, включая ДС Finder.

Maximalist
На сайте с 17.04.2007
Offline
202
#4

лично мне понравилась эта прога - Praide Unique Content Analyser II :)

только она долго проверяет...

- = тут что-то должно быть = -
SS
На сайте с 02.02.2009
Offline
116
#5

Скрипт проверять на корректность работы времени нет, но кому-нибудь наверное пригодится.

Скрипт проверки текста на уникальность.

<?php 

/**
* Скрипт проверки уникальности.
*
* Разбивает введённый в него текст на куски по 10 слов, создаёт из них 10-словные запросы
* для Yandex и Google, разбирает выдачу и формирует отчёт о частоте упоминания комбинаций
* слов в интернете.
* Перед началом использования этого скрипта рекомендуется ознакомиться с правилами Яндекса.
* Автор скрипта не несёт ответственности за любой ущерб причинённый его неправильным использованием.
*
* @see http://rules.yandex.ru/termsofuse.xml
* @author agronom
* @version $Id$
*
*/
ob_start();
?>
<html>
<head>
<title>Проверка уникальности текста</title>
<meta http-equiv="content-type" content="text/html; charset=windows-1251">
</head>
<body>
<h1>Проверка уникальности текста в интернете.</h1>
<form method="post">
<b>Текст для проверки </b>
<small>(Скопируйте сюда текст веб-страницы)</small><b>:</b><br>
<textarea name="query" cols="80" rows="5"></textarea><br>
<input type="submit" value="Проверить">
</form>
<?php
/**
* Выбирает доменное имя
* @param $a
*/
function handle_info($a){
$a = explode("\n", trim(strip_tags($a)));
$a = preg_replace("/^(www\.)?([\w\-\.]+):?([\d]+)?\/?([\s\S]*)?/i", "$2", strtolower($a[0]));
return $a;
}

/**
* Получает информацию о выдаче яндекса по запросу
*
* @param string $query текст запроса без URL кодирования
* @return array $a
* $a[0][1] - число найденных страниц
* $a[0][2] - число найденных сайтов
* $a[1] - массив найденных доменов
*/
function top_10($query) {
$url = "http://yandex.ru/yandsearch?text=".urlencode($query);
$txt = file_get_contents($url);
//echo "Ответ Яндекса";
//echo nl2br(htmlspecialchars(print_r($txt, true)));
$brief = get_brief($txt);
if (!is_array($brief)) {
return false;
}
// Получаем список сайтов yandex top 10
preg_match("/\<ol[\s\S]*?\>[\s\S]*?\<\/ol[\s\S]*?\>/", $txt, $results);
// Из списка ссылок делаем массив
preg_match_all("/\<li[\s\S]*?\>[\s\S]*?\<div class=\"info\">([\s\S]*?)\<\/div\>[\s\S]*?\<\/li[\s\S]*?\>/", $results[0], $results);
$results[1] = array_map("handle_info", $results[1]);
return array($brief, $results[1]);
}
/**
* Получает информацию о выдаче Google по запросу
*
* @param string $query текст запроса без URL кодирования
* @return array
*/
function top_10_g($query) {
$url = "http://www.google.com/search?hl=ru&q=".urlencode($query);
$txt = file_get_contents($url);
$brief = get_brief_g($txt);
if (!is_array($brief)) {
return false;
}
return array($brief, false);
}
/**
* Получает краткую информацию о числе результатов поиска в Yandex
*
* @param string $text текст страницы
* @return array $a $a[1] - число страниц, $a[2] - число сайтов
*/
function get_brief($text){
preg_match("/\<title\>[\s\S]+?:[\s\S]+?(\d+)[\s\S]+?\<\/title\>/i", $text, $ref);
$ref[1] = (@$ref[1]) ? $ref[1] : 0 ;
return $ref;
}
/**
* Получает краткую информацию о числе результатов поиска в Google
*
* @param string $text текст страницы
* @return array $a $a[1] - число страниц
*/
function get_brief_g($text){
$exp = "/\<div id=ssb\>\<div id=prs>\<b\>[\s\S]*?\<\/b\>\<\/div>\<p\>[\s\S]*?\<b\>[\d]*?\<\/b\> - \<b\>[\d]*?\<\/b\>[\s\S]*?\<b\>([\d\s]*?)\<\/b\>[\s\S]*?\<\/p\><\/div\>/i";
if (!preg_match($exp, $text, $ref)) {
return false;
}
$ref[1] = (isset($ref[1]))?(int)str_replace("&nbsp;", "", $ref[1]):0;
return $ref;
}

if (isset($_POST['query'])) {
$log = array();
$log['query'] = $_POST['query'];
$queries = (get_magic_quotes_gpc())?stripslashes($_POST['query']):$_POST['query'];
$queries = preg_replace("/[?!\(\)'\",]/", "", $queries);
$queries = preg_replace("/[- ]{2}/", " ", $queries);
$queries = preg_replace("/ +/", " ", $queries);
$queries = str_replace(".", "\n", $queries);
$queries = explode("\n", trim($queries)); // Разбиваем на предложения
?>
<h2>Яндекс</h2>
<table border="1">
<tr><td>Страниц</td><td>Запрос</td></tr>
<?php
foreach ($queries as $q) {
if (strlen($q) > 30) {
$q = preg_replace("/(([\S]+?[\s]+){3,9}[\S]+)[\s\S]*/", "$1", $q);
$top = @top_10("\"".trim($q)."\"");
$log["yandex"][] = array($top[0][1], $q);
?><tr><td><span title="<?php echo implode("\r\n", $top[1]); ?>"><?php echo $top[0][1]; ?></span></td><td><a href="http://www.yandex.ru/yandsearch?text=<?php echo urlencode("\"$q\""); ?>" target="_blank"><?php echo $q; ?></a></td></tr><?php
}
}
?></table>
<h2>Google</h2>
<table border="1">
<tr><td>Сайтов</td><td>Запрос</td></tr>
<?php
foreach ($queries as $q) {
if (strlen($q) > 30) {
$q = preg_replace("/(([\S]+?[\s]+){3,9}[\S]+)[\s\S]*/", "$1", $q);
$top = @top_10_g("\"".trim($q)."\"");
$log["google"][] = array(@$top[0][1], $q);
?><tr><td><?php echo (is_int(@$top[0][1]))? $top[0][1] : "N/A"; ?></td><td><a href="http://www.google.com/search?hl=ru&q=<?php echo urlencode("\"$q\""); ?>" target="_blank"><?php echo $q; ?></a></td></tr><?php
}
}
?></table><?php
}
?>
Anton111
На сайте с 13.08.2005
Offline
138
#6

Вот это лучше чем DCFinder: http://www.miratools.ru/Promo.aspx

Актуальный seo'шный old school (http://miralinks.ru/users/registration/from:341)
M
На сайте с 28.02.2006
Offline
224
#7

Уважаемые, хотелось бы этим постом немного приоткрыть глаза на процесс проведения проверки на плагиат, в том числе и программой DCFinder.

Алгоритм работы, в принципе, у всех одинаков. В этом деле велосипед уже придуман, просто у кого то диаметр колес побольше а у кого то вместо спиц диски стоят.

Текст разбивается на куски, после чего эти куски проверяются на уникальность. Результаты проверки зависят от множества факторов: от длины кусков, от вида, в котором эти куски скармливаются на проверку, от количества кусков, от того, какое количество совпадений считать плагиатом и т.д.

Почему один раз программа может показать, что текст уникальный а второй раз нет? Говорю в данном случае о DCFinder. Потому что при каждой проверке текст бьется на разные куски. И т.к. программа проверяет или во всяком случае стремится проверить текст не только на 100% плагиат, но и на плохенький рерайт или частичный плагиат, то при одной проверке могут попасться фразы, по которым не будет найдено плагиата совсем а при другой проверке будет найдено несколько совпадений. Именно по этой причине для получения более ясной картины нужно проводить проверку хотя бы 2 раза, ну и разумеется, как многие уже говорили, использовать несколько программ.

Часто встречаются советы, что надо самому проверять куски из текста. Конечно же, вы можете проверять текст и таким образом, но знайте, что вы будете делать туже работу, что и программы проверки на плагиат, только они это делают автоматом а вы вручную.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий