вопрос о создании статей

12 3
Сергей Демидов
На сайте с 25.10.2006
Offline
92
1447

вопрос в следующем:

насколько должны отличаться статьи, чтобы Я их не клеил? 1 словом? или 5-6 на абзац?

Такая проблема встала передо мной, когда потребовалось разместить порядка 100 статей. было5 написанных по 1,5-2К знаков. через час замены синонимов и перестановки абзацев - мой мозг превратился в фарш.

Буду счастлив услышать ваши мнения.

помощь в любых вопросах по туризму (http://www.aqvatour.ru).
T.R.O.N
На сайте с 18.05.2004
Offline
314
#1

Vaster,

Ваше творение называется "мусором"

Если по теме, то вопрос склейки дублей, вопрос сложный и далеко не тривиальный.

Если задача создавать "мусор" - возьмите людой алгоритм, который работает с цепями маркова

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
Р
На сайте с 23.05.2006
Offline
258
#2
Vaster:
вопрос в следующем:
насколько должны отличаться статьи, чтобы Я их не клеил? 1 словом? или 5-6 на абзац?

Они должны быть разными :)

Vaster:
Такая проблема встала передо мной, когда потребовалось разместить порядка 100 статей.

А зачем?

Vaster:
было5 написанных по 1,5-2К знаков.
Почему только 5, если нужно 100?
Vaster:
через час замены синонимов и перестановки абзацев - мой мозг превратился в фарш.
А обратно?
Сергей Демидов
На сайте с 25.10.2006
Offline
92
#3
T.R.O.N:
Vaster,
Ваше творение называется "мусором"

Если по теме, то вопрос склейки дублей, вопрос сложный и далеко не тривиальный.
Если задача создавать "мусор" - возьмите людой алгоритм, который работает с цепями маркова

извините, боюсь, Вы ошибаетесь. Статьи написаны реально качественно и они действительно уникальны и написать еще 5 на ту же тему - очень сложно. Вопрос не в том, публиковать ли дубли или сделать много вариантов. Вопрос в том - насколько эти варианты должны отличаться.

Это не проблема, когда пишешь описание для каталогов на 200-300 знаков. А вот когда в статье 2000... рандомайзером тут не попользуешься.. разница в 1 слово не помешает склейке, имхо.

З.Ы.: что такое "цепи маркова" - я, к моему стыду, не знаю. не поясните?

Сергей Демидов
На сайте с 25.10.2006
Offline
92
#4
Разработчик:
А обратно?

эээ как Вы тонко и вежливо меня перманентным дебилом объявили..

А по теме - ничего не сказали.

HoSStiA
На сайте с 18.02.2004
Offline
144
#5

☝ Взять статью, засунуть в PROMT, перевести с русского на все имеющиеся языки, потом обратно с них на русский.

Операцию повторять до генерации необходимого количества статей. :)

Сергей Демидов
На сайте с 25.10.2006
Offline
92
#6
HoSStiA:
☝ Взять статью, засунуть в PROMT, перевести с русского на все имеющиеся языки, потом обратно с них на русский.
Операцию повторять до генерации необходимого количества статей. :)

улыбнуло. на самом деле, спасибо. почти выход. тока руками до нормального русского языка довести.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#7
Vaster:
З.Ы.: что такое "цепи маркова" - я, к моему стыду, не знаю. не поясните?

Если при написании статей, вы задаетесь вопрос о склейке, то могу допустить, что на самом деле это дубли, мало интеренные людям.

Вы же всетаки хотите иметь статьи разные. По сути, как я сказал выше, это "мусор" и от еого качества, для людей конечно, ничего не зависит. Значит нужно только для роботов работать. А значит стоит напустить робота на робота, пусть работает. А человек должне думать.

Теперь о марковских текстах. Суть просто - на основе текста 1 создается другой 2. тескт 2 содержит цепочки смысловых(осмысленных) фраз текста 1, но в произвольном порядке. Очень эффективный метод борьбы со склейкой.

Но еще раз повторюсь, сайт, это продукт для людей, а не роботв. Может над этим стоит думать серьезней.

---------------------------------

Что такое «цепи Маркова»?

Короче говоря, вероятности в случае генерации связного текста можно выбросить за ненадобностью… Алгоритм получается такой:

0) берем текст, разбиваем его по предложениям, а внутри каждого предложения выделяем последовательности из N (допустим, 2-х) слов и пишем в таблицу

1) Берем случайно одно из «первых» слов в предложении, и ставим эту пару как первую.

2) По второму слову в паре выбираем все те пары, в которых это слово идет первым и дополняем текст вторым словом

3) Идем к предыдущему пункту 2, не забывая иногда закрывать предложение (например, парами, которые встречаются в концах предложений)

Вот примерно так. Это дает грамматически связный текст в любых количествах. Для размножения можно использовать и вероятности появления той или иной последовательности, и увеличивать N, выбирая одно следующее слово по предыдущим N-1. И все цепочки слов (здесь: пары) встречаются в реальной жизни, а на пробивку по тройкам и N-кам слов никаких ресурсов у поисковика не хватит.

Megavolt
На сайте с 23.12.2005
Offline
179
#8

а давайте сначала определимся, чито есть склейка и есть ли она вообще?

Иногда лучше жевать.... (С)
franklin90
На сайте с 01.06.2006
Offline
131
#9
Vaster:
Цитата:
Сообщение от Разработчик
А обратно?

эээ как Вы тонко и вежливо меня перманентным дебилом объявили..
А по теме - ничего не сказали.

А Вы не переживайте! Это нормально. :) Так сказать, привыкайте :)

А по поводу склейки - вопрос деликатный действительно. Есть ли склейка на самом деле - еще неизвестно. ИМХО одни лишь догадки. А что касается темы - то, я думаю, не надо делать все 100 статей разными. Сделайте вариантов 30, с различием на несколько слов на небольшой абзац. Я думаю ничего не поклеится...

C уважением Александр
T.R.O.N
На сайте с 18.05.2004
Offline
314
#10
franklin90:
Есть ли склейка на самом деле - еще неизвестно.
franklin90:
Сделайте вариантов 30, с различием на несколько слов на небольшой абзац. Я думаю ничего не поклеится...

Атас просто.

На счет самой "склейки". Под этим каждый понимает свое.

Смысл, для меня, разных статей, в отлове большего количества НЧ по вхождению. При этом делаю так, чтобы не пересекаться с конкурентами.

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий