Придумаем новый метод уникализации текстов?

12
Progr@mmer\.
На сайте с 14.10.2007
Offline
44
1801

Что нам стоит новый метод построить? :)

Пришла в голову идея, хотелось бы услышать ее коллективное развитие.

Сразу скажу, что текст получится мало читаемый.)

Берем два текста одной тематики, меняем в одном треть/половину абзацов из второго текста. Синонимизируем вордовским тезаурусом или простым синонимайзером, но учитывая часть речи исходного слова и синонима (имя существительное = имя существительное, глагол = глагол), возможно даже сравнивая по окончаниям. Потом из получившегося текста "достаем" имена прилагательные и глаголы и делаем из них два массива. Рандомизируем массивы и вставляем их обратно в текст. Всё. :)

Есть идеи по улучшению способа уникализации?

P.S.: про техническую часть пока что забудем, сейчас важна теория.

Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.
S
На сайте с 13.07.2007
Offline
56
#1

Гм, а какая практическая цель-то?

ЗЫ насчет цепей Маркова: а никто не прикручивал к цепям Маркова коэффициенты отдаленности слов друг от друга? То есть учет совместного использования слов в одном предложении?

ЗЫЫ: вообще-то на это есть другая ветка ;)

Progr@mmer\.
На сайте с 14.10.2007
Offline
44
#2

Практическая цель - не забаненые доры.

ЗЫ: Цепи Маркова вроде уже давно определяются ПС (поправьте, если не прав).

3ЫЫ: я правильный раздел выбрал, не путайте. :)

S
На сайте с 13.07.2007
Offline
56
#3

Насчет ЗЫЫ: /ru/forum/optimization-practices/search-technologies - обычно в этом разделе подобные темы.

Насчет ЗЫ: что вы понимаете под цепью Маркова?

Насчет цели: народ и с Марковкой неплохо лезет ;)

Progr@mmer\.
На сайте с 14.10.2007
Offline
44
#4

В том разделе темы про тексты, которые для людей.

Я правильно понимаю что такое цепь Маркова. Просто в прошлом посте выразился не верно.

Видел сообщения, что сайты с текстами, обработанными тем алгоримом поисковики очень хорошо банят. Хотелось бы придумать достойную альтернативу. :)

p.s.: если через пару дней никто не отреагирует на тему, то попрошу модераторов переместить ее в тот раздел.

ciber
На сайте с 04.01.2008
Offline
215
#5

русский язык настолько сложен, что боты не могут банить за содержание.

K
На сайте с 07.03.2007
Offline
143
#6
Что нам стоит новый метод построить?
Пришла в голову идея, хотелось бы услышать ее коллективное развитие.
Сразу скажу, что текст получится мало читаемый.)

Берем два текста одной тематики, меняем в одном треть/половину абзацов из второго текста. Синонимизируем вордовским тезаурусом или простым синонимайзером, но учитывая часть речи исходного слова и синонима (имя существительное = имя существительное, глагол = глагол), возможно даже сравнивая по окончаниям. Потом из получившегося текста "достаем" имена прилагательные и глаголы и делаем из них два массива. Рандомизируем массивы и вставляем их обратно в текст. Всё.

Есть идеи по улучшению способа уникализации?

P.S.: про техническую часть пока что забудем, сейчас важна теория.

Уникальный текст можно добиться легко и просто и без всяких этих вычурных действий ) Только ведь один хрен баниться будут =)

LL
На сайте с 27.09.2007
Offline
39
#7
Progr@mmer\.:

Берем два текста одной тематики, меняем в одном треть/половину абзацов из второго текста. Синонимизируем вордовским тезаурусом или простым синонимайзером, но учитывая часть речи исходного слова и синонима (имя существительное = имя существительное, глагол = глагол), возможно даже сравнивая по окончаниям. Потом из получившегося текста "достаем" имена прилагательные и глаголы и делаем из них два массива. Рандомизируем массивы и вставляем их обратно в текст. Всё.

если в итоге после таких манипуляций получаем нечитабельный текст, то не будет никаких преимуществ перед тем же марковым. Мхо по поводу этого способа: фи

по поводу смешивания абзацев\предложений: имеет право на существование, только не для доров т.к. тут еще ключевики на автомате совать надо, а это убьет читабельность сниппетов, и вообще, в целом читабельный текст - это не для классических доров, он им мало чем поможет

solnikolay:
ЗЫ насчет цепей Маркова: а никто не прикручивал к цепям Маркова коэффициенты отдаленности слов друг от друга? То есть учет совместного использования слов в одном предложении?

думал о таком, только в итоге получим очень ресурсоемкий способ генерации... и для получения хоть какого-то результата придется распарсить большую кучу тематических текстов, в итоге опять получим (ничего хорошего)

Progr@mmer\.:
p.s.: если через пару дней никто не отреагирует на тему, то попрошу модераторов переместить ее в тот раздел

"Придумаем новый метод уникализации текстов?" - доров больше касается генерация текста, так что раздел скорее не тот, тем более, опять-таки МХО, текст на данный момент далеко не самый важный признак дора для того же яндекса

S
На сайте с 13.07.2007
Offline
56
#8
la-la-la:
думал о таком, только в итоге получим очень ресурсоемкий способ генерации... и для получения хоть какого-то результата придется распарсить большую кучу тематических текстов, в итоге опять получим (ничего хорошего)

Гм, ну тут у некоторых гигами тексты исчисляются ;)

А насчет ресурсоемкости: ну да, ресурсоемко, и даже очень. Ну а что делать 😆

LL
На сайте с 27.09.2007
Offline
39
#9
solnikolay:
Гм, ну тут у некоторых гигами тексты исчисляются ;)
А насчет ресурсоемкости: ну да, ресурсоемко, и даже очень. Ну а что делать 😆

гм, так и я не про 10 Кб... вот именно из-за таких объемов исходного текста, это и становится практически нереальным, если установить

коэффициенты отдаленности слов друг от друга? То есть учет совместного использования слов в одном предложении?

то при самых оптимистичных прогнозах получившаяся структура данных будет меряться не одной сотней ГБ...

А на счет ресурсоемкости: каждому свое конечно, но идти в такой большой ущерб скорости, ради такого сомнительного преимущества...

S
На сайте с 13.07.2007
Offline
56
#10
la-la-la:
то при самых оптимистичных прогнозах получившаяся структура данных будет меряться не одной сотней ГБ...

Не знаю, как вы считаете, но база будет значительно меньше ;)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий