вопрос о создании статей

92

Сергей Демидов

20 декабря 2006, 15:06

1535

вопрос в следующем:

насколько должны отличаться статьи, чтобы Я их не клеил? 1 словом? или 5-6 на абзац?

Такая проблема встала передо мной, когда потребовалось разместить порядка 100 статей. было5 написанных по 1,5-2К знаков. через час замены синонимов и перестановки абзацев - мой мозг превратился в фарш.

Буду счастлив услышать ваши мнения.

помощь в любых вопросах по туризму (http://www.aqvatour.ru).

314

T.R.O.N

20 декабря 2006, 15:10

#1

Vaster,

Ваше творение называется "мусором"

Если по теме, то вопрос склейки дублей, вопрос сложный и далеко не тривиальный.

Если задача создавать "мусор" - возьмите людой алгоритм, который работает с цепями маркова

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

Р

258

Разработчик

20 декабря 2006, 15:20

#2

Vaster:
вопрос в следующем:
насколько должны отличаться статьи, чтобы Я их не клеил? 1 словом? или 5-6 на абзац?

Они должны быть разными :)

Vaster:
Такая проблема встала передо мной, когда потребовалось разместить порядка 100 статей.

А зачем?

Vaster:
было5 написанных по 1,5-2К знаков.

Почему только 5, если нужно 100?

Vaster:
через час замены синонимов и перестановки абзацев - мой мозг превратился в фарш.

А обратно?

92

Сергей Демидов

20 декабря 2006, 15:26

#3

T.R.O.N:
Vaster,
Ваше творение называется "мусором"

Если по теме, то вопрос склейки дублей, вопрос сложный и далеко не тривиальный.
Если задача создавать "мусор" - возьмите людой алгоритм, который работает с цепями маркова

извините, боюсь, Вы ошибаетесь. Статьи написаны реально качественно и они действительно уникальны и написать еще 5 на ту же тему - очень сложно. Вопрос не в том, публиковать ли дубли или сделать много вариантов. Вопрос в том - насколько эти варианты должны отличаться.

Это не проблема, когда пишешь описание для каталогов на 200-300 знаков. А вот когда в статье 2000... рандомайзером тут не попользуешься.. разница в 1 слово не помешает склейке, имхо.

З.Ы.: что такое "цепи маркова" - я, к моему стыду, не знаю. не поясните?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

92

Сергей Демидов

20 декабря 2006, 15:31

#4

Разработчик:
А обратно?

эээ как Вы тонко и вежливо меня перманентным дебилом объявили..

А по теме - ничего не сказали.

144

HoSStiA

20 декабря 2006, 15:34

#5

☝ Взять статью, засунуть в PROMT, перевести с русского на все имеющиеся языки, потом обратно с них на русский.

Операцию повторять до генерации необходимого количества статей. :)

92

Сергей Демидов

20 декабря 2006, 15:39

#6

HoSStiA:
☝ Взять статью, засунуть в PROMT, перевести с русского на все имеющиеся языки, потом обратно с них на русский.
Операцию повторять до генерации необходимого количества статей. :)

улыбнуло. на самом деле, спасибо. почти выход. тока руками до нормального русского языка довести.

314

T.R.O.N

20 декабря 2006, 15:40

#7

Vaster:
З.Ы.: что такое "цепи маркова" - я, к моему стыду, не знаю. не поясните?

Если при написании статей, вы задаетесь вопрос о склейке, то могу допустить, что на самом деле это дубли, мало интеренные людям.

Вы же всетаки хотите иметь статьи разные. По сути, как я сказал выше, это "мусор" и от еого качества, для людей конечно, ничего не зависит. Значит нужно только для роботов работать. А значит стоит напустить робота на робота, пусть работает. А человек должне думать.

Теперь о марковских текстах. Суть просто - на основе текста 1 создается другой 2. тескт 2 содержит цепочки смысловых(осмысленных) фраз текста 1, но в произвольном порядке. Очень эффективный метод борьбы со склейкой.

Но еще раз повторюсь, сайт, это продукт для людей, а не роботв. Может над этим стоит думать серьезней.

---------------------------------

Что такое «цепи Маркова»?

Короче говоря, вероятности в случае генерации связного текста можно выбросить за ненадобностью… Алгоритм получается такой:

0) берем текст, разбиваем его по предложениям, а внутри каждого предложения выделяем последовательности из N (допустим, 2-х) слов и пишем в таблицу

1) Берем случайно одно из «первых» слов в предложении, и ставим эту пару как первую.

2) По второму слову в паре выбираем все те пары, в которых это слово идет первым и дополняем текст вторым словом

3) Идем к предыдущему пункту 2, не забывая иногда закрывать предложение (например, парами, которые встречаются в концах предложений)

Вот примерно так. Это дает грамматически связный текст в любых количествах. Для размножения можно использовать и вероятности появления той или иной последовательности, и увеличивать N, выбирая одно следующее слово по предыдущим N-1. И все цепочки слов (здесь: пары) встречаются в реальной жизни, а на пробивку по тройкам и N-кам слов никаких ресурсов у поисковика не хватит.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

179

Megavolt

20 декабря 2006, 16:26

#8

а давайте сначала определимся, чито есть склейка и есть ли она вообще?

Иногда лучше жевать.... (С)

131

franklin90

20 декабря 2006, 16:35

#9

Vaster:
Цитата:
Сообщение от Разработчик
А обратно?

эээ как Вы тонко и вежливо меня перманентным дебилом объявили..
А по теме - ничего не сказали.

А Вы не переживайте! Это нормально. :) Так сказать, привыкайте :)

А по поводу склейки - вопрос деликатный действительно. Есть ли склейка на самом деле - еще неизвестно. ИМХО одни лишь догадки. А что касается темы - то, я думаю, не надо делать все 100 статей разными. Сделайте вариантов 30, с различием на несколько слов на небольшой абзац. Я думаю ничего не поклеится...

C уважением Александр

314

T.R.O.N

20 декабря 2006, 16:39

#10

franklin90:
Есть ли склейка на самом деле - еще неизвестно.

franklin90:
Сделайте вариантов 30, с различием на несколько слов на небольшой абзац. Я думаю ничего не поклеится...

Атас просто.

На счет самой "склейки". Под этим каждый понимает свое.

Смысл, для меня, разных статей, в отлове большего количества НЧ по вхождению. При этом делаю так, чтобы не пересекаться с конкурентами.

Open AI тестирует память для ChatGPT

Маркетинг для шоколадной фабрики. На 34% выше средний чек