Оценка уникальности статей

100

gorynchik

8 августа 2007, 04:19

1266

Приветствую

Подскажите плиз, есть ли какие-то программы, сервисы, алгоритмы для оценки степени уникальности одной статьи по отношению к другой (как-то же поисковые системы это делают).

Например тот же процес синонимайзинга: берем исходную статью, синонимизируем ее, как после этого хотя бы приблизительно оценить будет ли статья считаться уникальной или нет (до размещения на сайте).

[Удален]

8 августа 2007, 04:29

#1

gorynchik, поисковые запросы в яндексе позволяют найти копии статей за пару минут.

100

gorynchik

8 августа 2007, 04:41

#2

Да я понимаю, что Яндекс может оценить. Меня интересует как самому оценить до размещения в инете.

У меня есть статья из инета, я ее переделываю. Можно ли как-то после этого оценить насколько она будет уникальной по отношению к оригиналу. И достаточно ли будет этой степени уникальности для того же Яндекса, Гугла

Как можно оценить релевантность Неуникальный контент в интернет-магазине Размножение статей

310

Dmitry V___v

8 августа 2007, 05:22

#3

gorynchik:
Да я понимаю, что Яндекс может оценить. Меня интересует как самому оценить до размещения в инете.
У меня есть статья из инета, я ее переделываю. Можно ли как-то после этого оценить насколько она будет уникальной по отношению к оригиналу. И достаточно ли будет этой степени уникальности для того же Яндекса, Гугла

Вгоните источник и рерайт в антиплагиат :)

И сравните между собой. Система вроде попроще, нежели алгоритмы ПС, но все 80% совпадения Вам выдаст. :)

Второй сопсоб из тупых:

Тупо вбиваете по предложению в ПС :)

И смотрите на результат:

Если вылез снипет похожийна Ваш на 60% - плохая статья(точнее, плохой рерайт) ;)

Создание и ведение кампаний Google/Bing/Twitter/FB Ads под USA, Canada, United Kingdom and Australia ( https://searchengines.guru/ru/forum/1028286 ) + жирный линкбилдинг под бурж ( https://searchengines.guru/ru/forum/1028282 )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

100

gorynchik

8 августа 2007, 05:29

#4

Pall:
Вгоните источник и рерайт в антиплагиат :)
И сравните между собой. Система вроде попроще, нежели алгоритмы ПС, но все 80% совпадения Вам выдаст. :)

Имеется ввиду http://www.antiplagiat.ru/ ?

Второй сопсоб из тупых:
Тупо вбиваете по предложению в ПС :)
И смотрите на результат:
Если вылез снипет похожийна Ваш на 60% - плохая статья(точнее, плохой рерайт) ;)

Это не подходит :)

А мож есть какие-то научные методы, алгоритмы, статьи на эту тему.

Антиплагиат.ру ведь каким-то образом делает оценку

310

Dmitry V___v

8 августа 2007, 06:20

#5

gorynchik:
Имеется ввиду http://www.antiplagiat.ru/ ?

Угу.

Но база у него слабоватенькая своя :)

Это не подходит :)
А мож есть какие-то научные методы, алгоритмы, статьи на эту тему.
Антиплагиат.ру ведь каким-то образом делает оценку

Антиплагиат имеет своего паучка, но бегает тот слабо, если только его кто-то пригласит и то, после запуска модератором, ИМХО.

А так вам нужно будет отсканировать весь рунет (ну ладно, не весь, только тематику, по которой статью пишите) :) Так что второй метод пусть и тупой, но действенный. Особенно для статей в 1К знаков без пробелов ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

123

Artlight

8 августа 2007, 06:27

#6

gorynchik:
Имеется ввиду http://www.antiplagiat.ru/ ?

ещё http://www.copyscape.com/

но надежнее спросить у Яндекса, Вам ведь его мнение важно :)

Обменяю свой вмр на ваш яд курс 1-1

310

Dmitry V___v

8 августа 2007, 06:39

#7

Artlight:
ещё http://www.copyscape.com/
но надежнее спросить у Яндекса, Вам ведь его мнение важно :)

Нормально функционирующий copyscape хочет вполне приличных денех в месяц и нацелен на гугл.

Из платных под гугл есть также googlealert.co.uk, по моему, так...

Меня им одно время хедхантеры с мировым именем кажный день долбили, пока на рерайт их текста не сподобился ;)

Накрутка Яндекс/Директа конкурента, возможно Глубокий рерайт по 0,65 Яндекс не желает индексировать

100

gorynchik

8 августа 2007, 06:57

#8

Спасибо за http://www.copyscape.com/ и googlealert.co.uk для гугля, возьму на заметку :)

А описания каких-то теоретических, алгоритмических методов или статей на эту тему никто не подскажет?

Есть 2 текста: 1 - источник, 2 - переработанный оригинал. Нужно оценить достаточно ли переработан оригинал, чтоб 2 считался уникальным с точки зрения поисковой системы.

Спросить у Яндекса не вариант :) Задача - получить инструмент для работы над статьями.

Яндекс обновляет Вордстат Яндекс кобласит Как правильно сделать перелинковку

P

195

prlink

8 августа 2007, 07:02

#9

gorynchik:
Спасибо за http://www.copyscape.com/ и googlealert.co.uk для гугля, возьму на заметку :)
А описания каких-то теоретических, алгоритмических методов или статей на эту тему никто не подскажет?
Есть 2 текста: 1 - источник, 2 - переработанный оригинал. Нужно оценить достаточно ли переработан оригинал, чтоб 2 считался уникальным с точки зрения поисковой системы.
Спросить у Яндекса не вариант :) Задача - получить инструмент для работы над статьями.

Выберите статью и отдайте рерайтеру. Он все сделает.

41

Groove

8 августа 2007, 07:08

#10

gorynchik:
Приветствую

Подскажите плиз, есть ли какие-то программы, сервисы, алгоритмы для оценки степени уникальности одной статьи по отношению к другой (как-то же поисковые системы это делают).
Например тот же процес синонимайзинга: берем исходную статью, синонимизируем ее, как после этого хотя бы приблизительно оценить будет ли статья считаться уникальной или нет (до размещения на сайте).

извините, автора не помню - нашел где то в инете, совсем чуть чуть изменил, пользуюсь...


<?

function strips(&$el) { 

  if (is_array($el)) 

    foreach($el as $k=>$v) 

      strips($el[$k]); 

  else $el = stripslashes($el); 

} 

if (get_magic_quotes_gpc()) { 

  strips($_GET);

  strips($_POST);

  strips($_COOKIE); 

  strips($_REQUEST);

}

function get_post_str($name="",$default='',$is_strip=1){

  $text = isset($_POST[$name]) ? trim($_POST[$name]) : $default;

  return $is_strip ? strip_tags($text) : $text;

}





$first = get_post_str('first');

$second = get_post_str('second');

$body = '

<h3>Определение дуплицированных текстов</h3>

<p>Введите в поля, расположенные ниже, оба текста и нажмите "Поехали". Результаты появятся в самом низу после формы ввода, так что не забывайте промотать фрейм.

<p>После обработки и проверки скрипт выведет коэффициенты совпадения текстов для различного числа N для N-грамм.

<p>Уровень N-грамм равный 1 означает, что проверка проводилась на уровне отдельных слов.

В большинстве случаев коэффициент при уровне = 1 будет гораздо выше других, и по нему нельзя судить

о схожести либо различии двух текстов, т.к. он может быть большим даже для двух РАЗНЫХ текстов

одной тематики.

<p>Коэффициенты для N-грамм уровней 2, 3 и 4 уже более точно определяют схожесть двух текстов.

Т.к. большинство генераторов текста, использующих цепи Маркова, действуют по двух- и трех-цепочной

методике

<form action="" method="post">

Текст №1<br>

<textarea name="first" style="width:100%" rows="5">'.htmlspecialchars($first,ENT_QUOTES).'</textarea><br>

Текст №2<br>

<textarea name="second" style="width:100%" rows="5">'.htmlspecialchars($second,ENT_QUOTES).'</textarea><br>

<input type="submit" value="Поехали">

</form>';





function get_shingle($text,$n=3) {

	$shingles = array();

	$text = clean_text($text);

	$elements = explode(" ",$text);

	for ($i=0;$i<(count($elements)-$n+1);$i++) {

		$shingle = '';

		for ($j=0;$j<$n;$j++){

			$shingle .= strtolower(trim($elements[$i+$j]))." ";

		}	

		$shingles[$i] = trim($shingle);

	}

	return $shingles;	

}



function clean_text($text) {

	$new_text = eregi_replace("[\,|\.|\'|\"|\\|\/]","",$text);

	$new_text = eregi_replace("[\n|\t]"," ",$new_text);

	return $new_text;

}







for ($i=5;$i>0;$i--) {

	$first_shingles = array_unique(get_shingle($first,$i));

	$second_shingles = array_unique(get_shingle($second,$i));

	

	$intersect = array_intersect($first_shingles,$second_shingles);

	

	$merge = array_unique(array_merge($first_shingles,$second_shingles));

	if(count($merge)){

		$diff = count($intersect)/count($merge);

		

		$body .= "<h3>Уровень N-грамм - $i.</h3> <h5>Коэффициент сходства - ".number_format($diff*100,3,',','.').'%</h5> Пересечений:'.count($intersect).', совпадений:'.count($merge)."<br>";

	}

}

  print $body;

?>

jQuickForm = генератор форм на PHP (jQuery + HTML_QuickForm2) (http://jquickform.ru/) | iBegun.ru - цены в Бегуне (http://ibegun.ru/)

Курс биткоина превысил $50 тысяч

Что такое Power BI и зачем это нужно бизнесу