Насколько идеален ДС Finder как средство установления уникальности контента

57

durdana

7 апреля 2009, 19:58

640

После рерайта статьи при первой проверке ДС Finder определил контент как уникальный, после второй нашёл около десяти ссылок, где дублируется статья, над которой работал. Появились сомнения в достаточной эффективности вышеуказанной программы. Насколько они оправданы?

С уважением, durdana.

Сельскохозяйственная доска объявлений (http://agrowww.ru/)

S2

611

Str256

7 апреля 2009, 20:05

#1

Praide получше считается. А ещё лучше фразы в поисковики напрямую забить.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

SS

116

specialist-seo

7 апреля 2009, 20:13

#2

dcfinder

textcalc

antiplagiat.ru

copyscape.com

если все четыре сервиса показывают уникальность, значит так оно и есть. У них разные алгоритмы проверки информации.

Str256:
Praide получше считается. А ещё лучше фразы в поисковики напрямую забить.

если забить напрямую, то предложение может быть и не уникальным, а абзац быть.

Просто есть предложения, которые просто лексически невозможно переделать.

Например Добро пожаловать! )

A

15

Avilov

7 апреля 2009, 20:21

#3

durdana:
Появились сомнения в достаточной эффективности вышеуказанной программы. Насколько они оправданы?

Оправданы. Алгоритм проверки далеко не идеален. После подобных ошибок начал пользоваться сразу несколькими программами, включая ДС Finder.

202

Maximalist

7 апреля 2009, 20:40

#4

лично мне понравилась эта прога - Praide Unique Content Analyser II :)

только она долго проверяет...

- = тут что-то должно быть = -

SS

116

specialist-seo

8 апреля 2009, 04:56

#5

Скрипт проверять на корректность работы времени нет, но кому-нибудь наверное пригодится.

Скрипт проверки текста на уникальность.

<?php 

/**

 * Скрипт проверки уникальности.

 * 

 * Разбивает введённый в него текст на куски по 10 слов, создаёт из них 10-словные запросы

 * для Yandex и Google, разбирает выдачу и формирует отчёт о частоте упоминания комбинаций

 * слов в интернете.

 * Перед началом использования этого скрипта рекомендуется ознакомиться с правилами Яндекса.

 * Автор скрипта не несёт ответственности за любой ущерб причинённый его неправильным использованием. 

 * 

 * @see http://rules.yandex.ru/termsofuse.xml

 * @author agronom

 * @version $Id$

 * 

 */

ob_start();

?>

<html>

<head>

<title>Проверка уникальности текста</title>

<meta http-equiv="content-type" content="text/html; charset=windows-1251">

</head>

<body>

<h1>Проверка уникальности текста в интернете.</h1>

<form method="post">

<b>Текст для проверки </b>

<small>(Скопируйте сюда текст веб-страницы)</small><b>:</b><br>

<textarea name="query" cols="80" rows="5"></textarea><br>

<input type="submit" value="Проверить">

</form>

<?php

/**

 * Выбирает доменное имя

 * @param $a

 */

function    handle_info($a){

        $a = explode("\n", trim(strip_tags($a)));

        $a = preg_replace("/^(www\.)?([\w\-\.]+):?([\d]+)?\/?([\s\S]*)?/i", "$2", strtolower($a[0]));

        return $a;

}



/**

 * Получает информацию о выдаче яндекса по запросу

 * 

 * @param string $query текст запроса без URL кодирования

 * @return array $a

 *         $a[0][1] - число найденных страниц

 *         $a[0][2] - число найденных сайтов

 *         $a[1]    - массив найденных доменов

 */

function top_10($query) {

    $url = "http://yandex.ru/yandsearch?text=".urlencode($query);

    $txt = file_get_contents($url);

    //echo "Ответ Яндекса";

    //echo nl2br(htmlspecialchars(print_r($txt, true)));

    $brief = get_brief($txt);

    if (!is_array($brief)) {

        return false;

    }

    // Получаем список сайтов yandex top 10

    preg_match("/\<ol[\s\S]*?\>[\s\S]*?\<\/ol[\s\S]*?\>/", $txt, $results);

    // Из списка ссылок делаем массив

    preg_match_all("/\<li[\s\S]*?\>[\s\S]*?\<div class=\"info\">([\s\S]*?)\<\/div\>[\s\S]*?\<\/li[\s\S]*?\>/", $results[0], $results);

    $results[1] = array_map("handle_info", $results[1]);

    return array($brief, $results[1]);

}

/**

 * Получает информацию о выдаче Google по запросу

 * 

 * @param string $query текст запроса без URL кодирования

 * @return array

 */

function top_10_g($query) {

    $url = "http://www.google.com/search?hl=ru&q=".urlencode($query);

    $txt = file_get_contents($url);

    $brief = get_brief_g($txt);

    if (!is_array($brief)) {

        return false;

    }

    return array($brief, false);

}

/**

 * Получает краткую информацию о числе результатов поиска в Yandex

 * 

 * @param string $text текст страницы

 * @return array $a  $a[1] - число страниц, $a[2] - число сайтов

 */

function    get_brief($text){

    preg_match("/\<title\>[\s\S]+?:[\s\S]+?(\d+)[\s\S]+?\<\/title\>/i", $text, $ref);

    $ref[1] = (@$ref[1]) ? $ref[1] : 0 ;

    return $ref;

}

/**

 * Получает краткую информацию о числе результатов поиска в Google

 * 

 * @param string $text текст страницы

 * @return array $a  $a[1] - число страниц

 */

function    get_brief_g($text){

    $exp = "/\<div id=ssb\>\<div id=prs>\<b\>[\s\S]*?\<\/b\>\<\/div>\<p\>[\s\S]*?\<b\>[\d]*?\<\/b\> - \<b\>[\d]*?\<\/b\>[\s\S]*?\<b\>([\d\s]*?)\<\/b\>[\s\S]*?\<\/p\><\/div\>/i";

    if (!preg_match($exp, $text, $ref)) {

        return false;

    }

    $ref[1] = (isset($ref[1]))?(int)str_replace("&nbsp;", "", $ref[1]):0;

    return $ref;

}



if (isset($_POST['query'])) {

    $log = array();

    $log['query'] = $_POST['query'];

    $queries = (get_magic_quotes_gpc())?stripslashes($_POST['query']):$_POST['query'];

    $queries = preg_replace("/[?!\(\)'\",]/", "", $queries);

    $queries = preg_replace("/[- ]{2}/", " ", $queries);

    $queries = preg_replace("/ +/", " ", $queries);

    $queries = str_replace(".", "\n", $queries);

    $queries = explode("\n", trim($queries));    // Разбиваем на предложения

    ?>

    <h2>Яндекс</h2>

    <table border="1">

        <tr><td>Страниц</td><td>Запрос</td></tr>

    <?php

    foreach ($queries as $q) {

        if (strlen($q) > 30) {

            $q   = preg_replace("/(([\S]+?[\s]+){3,9}[\S]+)[\s\S]*/", "$1", $q);

            $top = @top_10("\"".trim($q)."\"");

            $log["yandex"][] = array($top[0][1], $q);

            ?><tr><td><span title="<?php echo implode("\r\n", $top[1]); ?>"><?php echo $top[0][1]; ?></span></td><td><a href="http://www.yandex.ru/yandsearch?text=<?php echo urlencode("\"$q\""); ?>" target="_blank"><?php echo $q; ?></a></td></tr><?php

        }

    }

    ?></table>

    <h2>Google</h2>

    <table border="1">

        <tr><td>Сайтов</td><td>Запрос</td></tr>

    <?php

    foreach ($queries as $q) {

        if (strlen($q) > 30) {

            $q   = preg_replace("/(([\S]+?[\s]+){3,9}[\S]+)[\s\S]*/", "$1", $q);

            $top = @top_10_g("\"".trim($q)."\"");

            $log["google"][] = array(@$top[0][1], $q);

            ?><tr><td><?php echo (is_int(@$top[0][1]))? $top[0][1] : "N/A"; ?></td><td><a href="http://www.google.com/search?hl=ru&q=<?php echo urlencode("\"$q\""); ?>" target="_blank"><?php echo $q; ?></a></td></tr><?php

        }

    }

    ?></table><?php

}

?>

138

Anton111

8 апреля 2009, 05:00

#6

Вот это лучше чем DCFinder: http://www.miratools.ru/Promo.aspx

Актуальный seo'шный old school (http://miralinks.ru/users/registration/from:341)

M

236

mihas

8 апреля 2009, 07:11

#7

Уважаемые, хотелось бы этим постом немного приоткрыть глаза на процесс проведения проверки на плагиат, в том числе и программой DCFinder.

Алгоритм работы, в принципе, у всех одинаков. В этом деле велосипед уже придуман, просто у кого то диаметр колес побольше а у кого то вместо спиц диски стоят.

Текст разбивается на куски, после чего эти куски проверяются на уникальность. Результаты проверки зависят от множества факторов: от длины кусков, от вида, в котором эти куски скармливаются на проверку, от количества кусков, от того, какое количество совпадений считать плагиатом и т.д.

Почему один раз программа может показать, что текст уникальный а второй раз нет? Говорю в данном случае о DCFinder. Потому что при каждой проверке текст бьется на разные куски. И т.к. программа проверяет или во всяком случае стремится проверить текст не только на 100% плагиат, но и на плохенький рерайт или частичный плагиат, то при одной проверке могут попасться фразы, по которым не будет найдено плагиата совсем а при другой проверке будет найдено несколько совпадений. Именно по этой причине для получения более ясной картины нужно проводить проверку хотя бы 2 раза, ну и разумеется, как многие уже говорили, использовать несколько программ.

Часто встречаются советы, что надо самому проверять куски из текста. Конечно же, вы можете проверять текст и таким образом, но знайте, что вы будете делать туже работу, что и программы проверки на плагиат, только они это делают автоматом а вы вручную.

Google: E-E-A-T не является фактором ранжирования

Что делать, чтобы попасть в ответы Google Bard