Оценка уникальности статей

12
gorynchik
На сайте с 25.05.2007
Offline
100
1239

Приветствую

Подскажите плиз, есть ли какие-то программы, сервисы, алгоритмы для оценки степени уникальности одной статьи по отношению к другой (как-то же поисковые системы это делают).

Например тот же процес синонимайзинга: берем исходную статью, синонимизируем ее, как после этого хотя бы приблизительно оценить будет ли статья считаться уникальной или нет (до размещения на сайте).

[Удален]
#1

gorynchik, поисковые запросы в яндексе позволяют найти копии статей за пару минут.

gorynchik
На сайте с 25.05.2007
Offline
100
#2

Да я понимаю, что Яндекс может оценить. Меня интересует как самому оценить до размещения в инете.

У меня есть статья из инета, я ее переделываю. Можно ли как-то после этого оценить насколько она будет уникальной по отношению к оригиналу. И достаточно ли будет этой степени уникальности для того же Яндекса, Гугла

Dmitry V___v
На сайте с 07.12.2006
Offline
310
#3
gorynchik:
Да я понимаю, что Яндекс может оценить. Меня интересует как самому оценить до размещения в инете.
У меня есть статья из инета, я ее переделываю. Можно ли как-то после этого оценить насколько она будет уникальной по отношению к оригиналу. И достаточно ли будет этой степени уникальности для того же Яндекса, Гугла

Вгоните источник и рерайт в антиплагиат :)

И сравните между собой. Система вроде попроще, нежели алгоритмы ПС, но все 80% совпадения Вам выдаст. :)

Второй сопсоб из тупых:

Тупо вбиваете по предложению в ПС :)

И смотрите на результат:

Если вылез снипет похожийна Ваш на 60% - плохая статья(точнее, плохой рерайт) ;)

Создание и ведение кампаний Google/Bing/Twitter/FB Ads под USA, Canada, United Kingdom and Australia ( https://searchengines.guru/ru/forum/1028286 ) + жирный линкбилдинг под бурж ( https://searchengines.guru/ru/forum/1028282 )
gorynchik
На сайте с 25.05.2007
Offline
100
#4
Pall:
Вгоните источник и рерайт в антиплагиат :)
И сравните между собой. Система вроде попроще, нежели алгоритмы ПС, но все 80% совпадения Вам выдаст. :)

Имеется ввиду http://www.antiplagiat.ru/ ?


Второй сопсоб из тупых:
Тупо вбиваете по предложению в ПС :)
И смотрите на результат:
Если вылез снипет похожийна Ваш на 60% - плохая статья(точнее, плохой рерайт) ;)

Это не подходит :)

А мож есть какие-то научные методы, алгоритмы, статьи на эту тему.

Антиплагиат.ру ведь каким-то образом делает оценку

Dmitry V___v
На сайте с 07.12.2006
Offline
310
#5
gorynchik:
Имеется ввиду http://www.antiplagiat.ru/ ?

Угу.

Но база у него слабоватенькая своя :)

Это не подходит :)
А мож есть какие-то научные методы, алгоритмы, статьи на эту тему.
Антиплагиат.ру ведь каким-то образом делает оценку

Антиплагиат имеет своего паучка, но бегает тот слабо, если только его кто-то пригласит и то, после запуска модератором, ИМХО.

А так вам нужно будет отсканировать весь рунет (ну ладно, не весь, только тематику, по которой статью пишите) :) Так что второй метод пусть и тупой, но действенный. Особенно для статей в 1К знаков без пробелов ;)

Artlight
На сайте с 15.09.2003
Offline
123
#6
gorynchik:
Имеется ввиду http://www.antiplagiat.ru/ ?

ещё http://www.copyscape.com/

но надежнее спросить у Яндекса, Вам ведь его мнение важно :)

Обменяю свой вмр на ваш яд курс 1-1
Dmitry V___v
На сайте с 07.12.2006
Offline
310
#7
Artlight:
ещё http://www.copyscape.com/
но надежнее спросить у Яндекса, Вам ведь его мнение важно :)

Нормально функционирующий copyscape хочет вполне приличных денех в месяц и нацелен на гугл.

Из платных под гугл есть также googlealert.co.uk, по моему, так...

Меня им одно время хедхантеры с мировым именем кажный день долбили, пока на рерайт их текста не сподобился ;)

gorynchik
На сайте с 25.05.2007
Offline
100
#8

Спасибо за http://www.copyscape.com/ и googlealert.co.uk для гугля, возьму на заметку :)

А описания каких-то теоретических, алгоритмических методов или статей на эту тему никто не подскажет?

Есть 2 текста: 1 - источник, 2 - переработанный оригинал. Нужно оценить достаточно ли переработан оригинал, чтоб 2 считался уникальным с точки зрения поисковой системы.

Спросить у Яндекса не вариант :) Задача - получить инструмент для работы над статьями.

prlink
На сайте с 05.05.2006
Offline
195
#9
gorynchik:
Спасибо за http://www.copyscape.com/ и googlealert.co.uk для гугля, возьму на заметку :)
А описания каких-то теоретических, алгоритмических методов или статей на эту тему никто не подскажет?
Есть 2 текста: 1 - источник, 2 - переработанный оригинал. Нужно оценить достаточно ли переработан оригинал, чтоб 2 считался уникальным с точки зрения поисковой системы.
Спросить у Яндекса не вариант :) Задача - получить инструмент для работы над статьями.

Выберите статью и отдайте рерайтеру. Он все сделает.

Groove
На сайте с 22.02.2007
Offline
41
#10
gorynchik:
Приветствую

Подскажите плиз, есть ли какие-то программы, сервисы, алгоритмы для оценки степени уникальности одной статьи по отношению к другой (как-то же поисковые системы это делают).
Например тот же процес синонимайзинга: берем исходную статью, синонимизируем ее, как после этого хотя бы приблизительно оценить будет ли статья считаться уникальной или нет (до размещения на сайте).

извините, автора не помню - нашел где то в инете, совсем чуть чуть изменил, пользуюсь...


<?
function strips(&$el) {
if (is_array($el))
foreach($el as $k=>$v)
strips($el[$k]);
else $el = stripslashes($el);
}
if (get_magic_quotes_gpc()) {
strips($_GET);
strips($_POST);
strips($_COOKIE);
strips($_REQUEST);
}
function get_post_str($name="",$default='',$is_strip=1){
$text = isset($_POST[$name]) ? trim($_POST[$name]) : $default;
return $is_strip ? strip_tags($text) : $text;
}


$first = get_post_str('first');
$second = get_post_str('second');
$body = '
<h3>Определение дуплицированных текстов</h3>
<p>Введите в поля, расположенные ниже, оба текста и нажмите "Поехали". Результаты появятся в самом низу после формы ввода, так что не забывайте промотать фрейм.
<p>После обработки и проверки скрипт выведет коэффициенты совпадения текстов для различного числа N для N-грамм.
<p>Уровень N-грамм равный 1 означает, что проверка проводилась на уровне отдельных слов.
В большинстве случаев коэффициент при уровне = 1 будет гораздо выше других, и по нему нельзя судить
о схожести либо различии двух текстов, т.к. он может быть большим даже для двух РАЗНЫХ текстов
одной тематики.
<p>Коэффициенты для N-грамм уровней 2, 3 и 4 уже более точно определяют схожесть двух текстов.
Т.к. большинство генераторов текста, использующих цепи Маркова, действуют по двух- и трех-цепочной
методике
<form action="" method="post">
Текст №1<br>
<textarea name="first" style="width:100%" rows="5">'.htmlspecialchars($first,ENT_QUOTES).'</textarea><br>
Текст №2<br>
<textarea name="second" style="width:100%" rows="5">'.htmlspecialchars($second,ENT_QUOTES).'</textarea><br>
<input type="submit" value="Поехали">
</form>';


function get_shingle($text,$n=3) {
$shingles = array();
$text = clean_text($text);
$elements = explode(" ",$text);
for ($i=0;$i<(count($elements)-$n+1);$i++) {
$shingle = '';
for ($j=0;$j<$n;$j++){
$shingle .= strtolower(trim($elements[$i+$j]))." ";
}
$shingles[$i] = trim($shingle);
}
return $shingles;
}

function clean_text($text) {
$new_text = eregi_replace("[\,|\.|\'|\"|\\|\/]","",$text);
$new_text = eregi_replace("[\n|\t]"," ",$new_text);
return $new_text;
}



for ($i=5;$i>0;$i--) {
$first_shingles = array_unique(get_shingle($first,$i));
$second_shingles = array_unique(get_shingle($second,$i));

$intersect = array_intersect($first_shingles,$second_shingles);

$merge = array_unique(array_merge($first_shingles,$second_shingles));
if(count($merge)){
$diff = count($intersect)/count($merge);

$body .= "<h3>Уровень N-грамм - $i.</h3> <h5>Коэффициент сходства - ".number_format($diff*100,3,',','.').'%</h5> Пересечений:'.count($intersect).', совпадений:'.count($merge)."<br>";
}
}
print $body;
?>
jQuickForm = генератор форм на PHP (jQuery + HTML_QuickForm2) (http://jquickform.ru/) | iBegun.ru - цены в Бегуне (http://ibegun.ru/)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий