Придумаем новый метод уникализации текстов?

$Progr@mmer\.$

44

Progr@mmer\.

13 июня 2008, 11:58

1801

Что нам стоит новый метод построить? :)

Пришла в голову идея, хотелось бы услышать ее коллективное развитие.

Сразу скажу, что текст получится мало читаемый.)

Берем два текста одной тематики, меняем в одном треть/половину абзацов из второго текста. Синонимизируем вордовским тезаурусом или простым синонимайзером, но учитывая часть речи исходного слова и синонима (имя существительное = имя существительное, глагол = глагол), возможно даже сравнивая по окончаниям. Потом из получившегося текста "достаем" имена прилагательные и глаголы и делаем из них два массива. Рандомизируем массивы и вставляем их обратно в текст. Всё. :)

Есть идеи по улучшению способа уникализации?

P.S.: про техническую часть пока что забудем, сейчас важна теория.

Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.

S

56

solnikolay

13 июня 2008, 12:32

#1

Гм, а какая практическая цель-то?

ЗЫ насчет цепей Маркова: а никто не прикручивал к цепям Маркова коэффициенты отдаленности слов друг от друга? То есть учет совместного использования слов в одном предложении?

ЗЫЫ: вообще-то на это есть другая ветка ;)

Знакомство с девушкой из открыть ссылку для индексации Яндекс кобласит

$Progr@mmer\.$

44

Progr@mmer\.

13 июня 2008, 12:47

#2

Практическая цель - не забаненые доры.

ЗЫ: Цепи Маркова вроде уже давно определяются ПС (поправьте, если не прав).

3ЫЫ: я правильный раздел выбрал, не путайте. :)

S

56

solnikolay

13 июня 2008, 13:08

#3

Насчет ЗЫЫ: /ru/forum/optimization-practices/search-technologies - обычно в этом разделе подобные темы.

Насчет ЗЫ: что вы понимаете под цепью Маркова?

Насчет цели: народ и с Марковкой неплохо лезет ;)

$Progr@mmer\.$

44

Progr@mmer\.

13 июня 2008, 13:20

#4

В том разделе темы про тексты, которые для людей.

Я правильно понимаю что такое цепь Маркова. Просто в прошлом посте выразился не верно.

Видел сообщения, что сайты с текстами, обработанными тем алгоримом поисковики очень хорошо банят. Хотелось бы придумать достойную альтернативу. :)

p.s.: если через пару дней никто не отреагирует на тему, то попрошу модераторов переместить ее в тот раздел.

iframe-yang.yandex - кто это? Крауд-маркетинг который работает | Новый сайт и Яндекс.

215

ciber

13 июня 2008, 17:24

#5

русский язык настолько сложен, что боты не могут банить за содержание.

K

143

Koag

13 июня 2008, 17:26

#6

Что нам стоит новый метод построить?
Пришла в голову идея, хотелось бы услышать ее коллективное развитие.
Сразу скажу, что текст получится мало читаемый.)

Берем два текста одной тематики, меняем в одном треть/половину абзацов из второго текста. Синонимизируем вордовским тезаурусом или простым синонимайзером, но учитывая часть речи исходного слова и синонима (имя существительное = имя существительное, глагол = глагол), возможно даже сравнивая по окончаниям. Потом из получившегося текста "достаем" имена прилагательные и глаголы и делаем из них два массива. Рандомизируем массивы и вставляем их обратно в текст. Всё.

Есть идеи по улучшению способа уникализации?

P.S.: про техническую часть пока что забудем, сейчас важна теория.

Уникальный текст можно добиться легко и просто и без всяких этих вычурных действий ) Только ведь один хрен баниться будут =)

LL

39

la-la-la

14 июня 2008, 17:25

#7

Progr@mmer\.:

Берем два текста одной тематики, меняем в одном треть/половину абзацов из второго текста. Синонимизируем вордовским тезаурусом или простым синонимайзером, но учитывая часть речи исходного слова и синонима (имя существительное = имя существительное, глагол = глагол), возможно даже сравнивая по окончаниям. Потом из получившегося текста "достаем" имена прилагательные и глаголы и делаем из них два массива. Рандомизируем массивы и вставляем их обратно в текст. Всё.

если в итоге после таких манипуляций получаем нечитабельный текст, то не будет никаких преимуществ перед тем же марковым. Мхо по поводу этого способа: фи

по поводу смешивания абзацев\предложений: имеет право на существование, только не для доров т.к. тут еще ключевики на автомате совать надо, а это убьет читабельность сниппетов, и вообще, в целом читабельный текст - это не для классических доров, он им мало чем поможет

solnikolay:
ЗЫ насчет цепей Маркова: а никто не прикручивал к цепям Маркова коэффициенты отдаленности слов друг от друга? То есть учет совместного использования слов в одном предложении?

думал о таком, только в итоге получим очень ресурсоемкий способ генерации... и для получения хоть какого-то результата придется распарсить большую кучу тематических текстов, в итоге опять получим (ничего хорошего)

Progr@mmer\.:
p.s.: если через пару дней никто не отреагирует на тему, то попрошу модераторов переместить ее в тот раздел

"Придумаем новый метод уникализации текстов?" - доров больше касается генерация текста, так что раздел скорее не тот, тем более, опять-таки МХО, текст на данный момент далеко не самый важный признак дора для того же яндекса

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

56

solnikolay

14 июня 2008, 20:44

#8

la-la-la:
думал о таком, только в итоге получим очень ресурсоемкий способ генерации... и для получения хоть какого-то результата придется распарсить большую кучу тематических текстов, в итоге опять получим (ничего хорошего)

Гм, ну тут у некоторых гигами тексты исчисляются ;)

А насчет ресурсоемкости: ну да, ресурсоемко, и даже очень. Ну а что делать 😆

LL

39

la-la-la

14 июня 2008, 23:12

#9

solnikolay:
Гм, ну тут у некоторых гигами тексты исчисляются ;)
А насчет ресурсоемкости: ну да, ресурсоемко, и даже очень. Ну а что делать 😆

гм, так и я не про 10 Кб... вот именно из-за таких объемов исходного текста, это и становится практически нереальным, если установить

коэффициенты отдаленности слов друг от друга? То есть учет совместного использования слов в одном предложении?

то при самых оптимистичных прогнозах получившаяся структура данных будет меряться не одной сотней ГБ...

А на счет ресурсоемкости: каждому свое конечно, но идти в такой большой ущерб скорости, ради такого сомнительного преимущества...

Нарушения и угрозы безопасности Маркировка рекламы с 1 include в php большого

S

56

solnikolay

15 июня 2008, 08:53

#10

la-la-la:
то при самых оптимистичных прогнозах получившаяся структура данных будет меряться не одной сотней ГБ...

Не знаю, как вы считаете, но база будет значительно меньше ;)

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Маркетинг для шоколадной фабрики. На 34% выше средний чек