Размножение статей (теория новичку).

TR
На сайте с 27.03.2008
Offline
3
3490

Сегодня размножение статей стало очень серьезным и неисчерпаемым источником контента. Несмотря на то, что это в действительности это замусоривание сети, лучше оставить моральный аспект за бортом. Размножение и синонимайзинг в чем то схожи, но это далеко не одно и то же. При синонимайзинге вы получаете из одной статьи другую, при размножении - из одной статьи множество других.

Размножение статей позволяет делать статьи уникальными, и основными характеристиками качества являются соответственно уникальность статей и читабельность. Если с читабельностью все ясно, то с уникальностью есть масса вопросов.

Уникальность, как правило, проверяют с использованием алгоритма шинглов* вот такими программами Shingles Expert 1.0 и Hkey Shingle Text Compare, но данный подход как раз и неуместен, так как не позволяет увидеть реальную уникальность множества статей, но хорошо показывает различие двух статей. Для проверки уникальности массово необходимо использовать иные механизмы - например, пакетной проверки статей на уникальность - WSGURerayterDemo (официальный сайт - http://www.wsgu.ru/). Данный метод позволяет проанализировать сразу несколько статей и увидеть, реальную уникальность полученного текста. Замечу, что при уникальности по алгоритму шинглов в 100%, пакетная проверка показывает лишь 50%. А если ваши статьи уникальны по шинглами на 90%, то пакетная проверка покажет вам совсем неутешительные результаты.

На моей практике оптимальным значением уникальности при пакетной проверке является диапазон от 60 до 70 процентов. Именно этого качества удается добиться с меньшими затратами. Для получения качества от 70 до 80 объем формулы приходится, как правило, удваивать, что естественно тут же удваивает и трудозатраты.

Клеятся ли статьи с уникальностью менее 50% по пакетной проверке? Статьи клеятся. Было проверено множество раз - статьи жутко клеятся и банятся - очевидно, ПС имеет алгоритмы поиска дуплицированного контента. Но, тем не менее, важнейшим здесь будет именно то, как размещать статьи. Наиболее часто клеились статьи тогда, когда они разово поступали на индексацию, поэтому, если у вас уникальность статей меньше 50%, то старайтесь растягивать размещение контента на 2 - 3 "апа" выдачи.

Виды размножения.

Существует много видов размножения и каждый из них имеет свои плюсы и минусы.

1. Перебор синонимов.

Этот метод основывается на том, что каждое или через одно слово в статье заменяется несколькими синонимами. Для примера - "Мама мыла раму" - {Мама|Тетя|Бабушка|Девушка|Женщина} {чистила|натирала|драила|терла|скоблила} {раму|стол|окно|стену|дверь}. При переборе значений с помощью специального софта мы можем получить множество разнообразных сочетаний, таких как "Женщина терла дверь" и т.д. Основная сложность данного подхода в том, что трудно подобрать достаточное количество синонимов без потери первоначального смысла, согласованности предложений, и при этом получить высокую уникальность. Если подбирать синонимы к каждому слову, по 4 - 5, то можно получить уникальность по шинглам 100%, пакетную уникальность - 60%, если халтурить, то уникальность значительно падает.

2. Перемешивание рерайтов.

В этом методе весь текст статьи разбивается на несколько кусков и каждому куску после пишется некоторое количество рерайтов. После используется такая же схема - {|||} - но не для каждого слова, а по кусочкам, где синонимами являются подготовленные рерайты. Наверно самый неэффективный метод. Рерайтов можно написать очень много - пусть даже по 10, но если вы будите генерировать 1000 статей, то у каждой сотни из них будет минимум один общий кусок текста. Если писать по 5 рерайтов на 1 - 2 предложения текста, то уникальность по шинглам будет в районе 80 - 90%, а пакетная проверка покажет вам порядка 30 - 40 уникальности. Единственным плюсом, который впрочем перечеркивается склейкой, можно считать высокую читабельность текста.

3. "Суперсложный" и подобные методы.

Это комбинирование перебора синонимов и рерайтов - самый качественный вариант, но, тем не менее, если думать, что раз используются рерайты, то можно уменьшать число синонимов - то получается низкого качества размножение и масса трудозатрат. Идеальным вариантом будет написание по 2 рерайтов на каждое предложение текста и полноценный подбор синонимов. Если сделать все именно так, то по шинглам естественно вы получите 100%, а "пакетно" у вас будет от 70 до 90%. Чем больше рерайтов использовать, тем выше будет процент уникальности пакетной проверки.

Я пользуюсь первым методом и добиваюсь хороших результатов в проверках. Вы можете использовать эти макросы - [ATTACH]16781[/ATTACH] (мне их дал glumworks) для быстрого написания формулы. Эти макросы не занимаются синонимизацией, но они позволяют быстро расставить скобочки в тексте, почистить теги и много всего, чем я сам пользовался. Для установки создайте макросы в вашем документе Word, откройте его для редактирования и замените все содержимое макроса на текст из того файла. Ну или почитайте где-нибудь про макросы… :)

P.S. Самое интересное то, что существуют скрипты, которые могут восстановить формулу по заданному пакету статей вне зависимости от уникальности статей, а этот факт говорит о том, что установить размноженные ли статьи или нет, не является чем-то невероятным для ПС - хотя, все же нужно иметь только статьи из пакета, иначе ничего не работает... Так что, если делаете размножение - думайте о завтрашнем дне - появятся новые дата-центры и весь некачественный мусор вылетит в трубу.

*Шинглы.

Этот метод основан на разбиении обоих текстов на цепочки слов (шинглы) и последовательное выявление в текстах схожих цепочек. Тексты разбивают на цепочки случайным образом, что позволяет выявлять такие вещи, как простая перестановка абзацев или просто сдвиг текста на одно слово.

Проверка шинглами наиболее эффективна, если в каждой цепочке не одно слово, а два, три или четыре слова. Так как большинство текстов используют одни и те же слова, а тексты, написанные в одной, узкой теме, как правило, оперируют больше чем на 50% одинаковыми словами и выражениями, основой уникальности является именно совпадение некоторой последовательности слов в проверяемых текстах.

Данный несложный скрипт реализует примитивное сравнение по алгоритму шинглов.

<?php

if (!isset($_REQUEST['first']) || !isset($_REQUEST['second'])) {
exit();
}
$first = @$_REQUEST['first'];
$second = @$_REQUEST['second'];
if (!$first || !$second) {
echo "Отсутствуют оба или один из текстов!";
exit();
}

if (strlen($first)>200000 || strlen($second)>200000) {
echo "Длина обоих или одного из текстов превысила допустимую!";
exit();
}

function get_shingle($text,$n=3) {
$shingles = array();
$text = clean_text($text);
$elements = explode(" ",$text);
for ($i=0;$i<(count($elements)-$n+1);$i++) {
$shingle = '';
for ($j=0;$j<$n;$j++){
$shingle .= strtolower(trim($elements[$i+$j]))." ";
}
$shingles[$i] = trim($shingle);
}
return $shingles;
}

function clean_text($text) {
$new_text = eregi_replace("[\,|\.|\'|\"|\\|\/]","",$text);
$new_text = eregi_replace("[\n|\t]"," ",$new_text);
return $new_text;
}

for ($i=1;$i<5;$i++) {
$first_shingles = array_unique(get_shingle($first,$i));
$second_shingles = array_unique(get_shingle($second,$i));

$intersect = array_intersect($first_shingles,$second_shingles);

$merge = array_unique(array_merge($first_shingles,$second_shingles));

$diff = (count($intersect)/count($merge))/0.01;

echo "Количество слов в шингле - $i. Процент схожести - ".$diff."<br>";
}
?>
zip macros.zip
Размножение статей (/ru/forum/comment/3078826) Пакетная обработка файлов (/ru/forum/219415)
[Удален]
#1

Вы продемонстировали наверно не самые подходящие программы для размножения.Я работаю с этим http://makebusiness.ru/soft/22 + используется Advasar (Advanced search and replace) - фриварная старая программа, которая просто творит чудеса автоматизации (ей я разбиваю текст на переменные подстановок, формирую файлы подстановок с путями .

Я в основном перебираю варианты слов, фраз, небольших предложений. + делаю много вариантов заголовков и околоссылочного текста.

Пока мой рекорд - размножение 2000 симв (благоприятной для меня темы строительства) на 1000 вариантов (совпадения 0-10%) за 5 часов

TR
На сайте с 27.03.2008
Offline
3
#2

Ни одной программы для размножения я не указывал. Речь идет о проверке уникальности.

SI
На сайте с 03.12.2007
Offline
130
#3

Можно проверять степень схожести текстов между собой, архивируя их PPMd алгоритмом.

Обычный текст сжимается в 3-4 раза, размноженный раз в 10 лучше.

-= Онлайн сервисы =-
[Удален]
#4

textorubka.ru, Вот именно, что я рекомендую программу которая облегчает написание и проверку уникальности

BrokenBrake
На сайте с 03.03.2007
Offline
194
#5

Немного оффтоп. Почему в таких прогах синтакис такой ужасный? Видимо, с буржунета когда-то давно стянули одну похожую прогу, и у нас тоже бездумно повторяют. Я не занимаюсь размножением текстов, но мне очевидно, что набирать {Мама|Тетя|Бабушка|Девушка|Женщина} очень неудобно, нужно ведь переключать раскладку. Ну не бред?

Именно поэтому для «Закладочника» я реализовал гораздо более удобный способ (Мама\Тетя\Бабушка\Девушка\Женщина).

Вот, похвастался типа.

Vanich
На сайте с 10.07.2007
Offline
165
#6
BrokenBrake:
набирать {Мама|Тетя|Бабушка|Девушка|Женщина} очень неудобно

Посмотрите, как у меня в софте из подписи сделано. Набирать ничего не нужно, но синтаксис стандартный - не режет глаз.

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)
Light Phantom
На сайте с 17.03.2007
Offline
188
#7

textorubka.ru, а еще есть Hkey Shingle Text Compare Pro, которая сравнивает тексты пакетно, причем очень-очень быстро.

BrokenBrake:
Немного оффтоп. Почему в таких прогах синтакис такой ужасный? Видимо, с буржунета когда-то давно стянули одну похожую прогу, и у нас тоже бездумно повторяют. Я не занимаюсь размножением текстов, но мне очевидно, что набирать {Мама|Тетя|Бабушка|Девушка|Женщина} очень неудобно, нужно ведь переключать раскладку. Ну не бред?

Да, многие под буржунет косят, а под английскую раскладку клавиатуры синтаксис {|||} как раз удобнее. Хотя есть в программах кнопки, которые вызывают дополнительное окошко для ввода синонимов, да и в том же СЕОГенераторе уже сделано так, что при любой раскладке клавиатуры и зажатой клавише Ctrl (вместо Shift) будет подставляться {|||}, а не Х///Ъ, если раскладка окажется русской.

Ну, а в целом, статья неплохая. Только софт не весь исследован был :)

Калинин
На сайте с 20.06.2006
Offline
310
#8

Критики, вот вы бы взяли и каждый выложили бы такой ликбез по своим прогам, умениям и навыкам, как не поленился это сделать ТС.

Это же не паление тем, это именно ликбез, для чего, собственно, форум, а особенно - раздел "Новички" и нужен.

Респект ТСу.

Покупка антиквариата: /ru/forum/868704 ()

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий