Оптимальный вариант перемешивания текста

12
Ш2
На сайте с 24.07.2008
Offline
9
#11

генерируете на лету каждый раз заново ? или это сильно затратно по ресурсам ?

школьнег_29A добавил 05.08.2008 в 01:03

rasiell:
А вы обращали внимание как всякие системы по типу антиплагиата показывают процентное соответствие текстов? Думаю поисковики работают по похожим алгоритмам. Может стоит попробовать перед тем как писать софт вручную испробовать эти варианты на примере нескольких предложений?
И ИМХО генерация предложений по словарю уменьшает вероятность того, что текст будет не уникальным, т.к. допустим слова берутся рандомно из словаря, а когда перемешиваются предложения и слова в них они всеравно находятся ближе друг к другу

системы типа антиплагиата сравнивают 1:1 два текста, я же хочу попробовать вариант брать из 200 текстов (скоро планирую напарсить несколько тысяч) по 1 рандомному предложению. Максимум совпадение будет в 1 предложение.

FIDO FOREVER !
rasiell
На сайте с 16.02.2008
Offline
180
#12

Возможно я вас не совсем правильно понимаю. Или вы меня. Я просто приведу пример.

Вот оригинальный текст с одного сайта:

Доброе утро, день или вечер, а быть может даже доброй ночи. Одним словом, здравствуйте! Раз вы зашли на этот сайт, значит, скорее всего, у вас проблемы с лишним весом и вы считаете, что похудение вам необходимо.

Я проверил его через antiplagiat.ru, сервис показал долю в тексте 100%, т.е. определил первоисточник.

Дальше я поменял слова в предложениях местами, получилось вот что:

Утро доброе, вечер или день, а может быть ночи доброй даже. Здравствуйте словом одним! Вы раз зашли на сайт этот, значит, скорее всего, у проблемы вас с весом лишним и считаете вы, что вам необходимо похудение.

Доля в тексте 74,33%

Затем еще поменял местами предложения

Вы раз зашли на сайт этот, значит, скорее всего, у проблемы вас с весом лишним и считаете вы, что вам необходимо похудение. Здравствуйте словом одним! Утро доброе, вечер или день, а может быть ночи доброй даже.

Опять же определился первоисточник и доля составила 72,97%

Дальше я взял пару предложений с абсолютно другого сайта, также перемешал в них слова и перемешал эти предложения с предложениями с другого сайта:

Вы раз зашли на сайт этот, значит, скорее всего, у проблемы вас с весом лишним и считаете вы, что вам необходимо похудение. Курс лечения целлюлита проводится комплексно в центре нашем, с применением таких процедур как: квантовая терапия, мезотерапия, озонотерапия, прессотерапия, ультразвуковая терапия, криотерапия и др. Здравствуйте словом одним! Целлюлит – это не болезнь связанная просто с фибросклеротической-отечно панникулопатией. Утро доброе, вечер или день, а может быть ночи доброй даже.

Определилось 2 источника доли соответствия составили 18,62% и 26,67% соответственно.

В принципе получается, чтобы максимально уникализировать текст нужно брать предложения из разных статей, перемешивать их и перемешивать в них слова. И то в моем примере полной уникальности добиться не удалось.

Да и слова перемешивал я руками, а чтобы научить так алгоритм тоже надо постараться, так что я всетаки настаиваю на генераторе по словарю 🚬

Zerber (http://spartanets.ru/zerber) — программа для публикации статей в различные CMS и блогсервисы
firacet
На сайте с 23.07.2008
Offline
68
#13

сообщение удалено

Сбылись мечты народный: Мир-Труд-Май
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий