Сделай морфологическую подстановку с учетом частотности слов - Doorways & Cloaking

Дорген, генерация текста

Chikey.ru · 2009-11-03T07:11:14.0000000Z

Сел писать модуль генерации текста и че то завис.. Как лучше 1. Брать кусок какого то готового ТЕМАТИЧНОГО текста и через определеннный промежуток разбавлять кеями. 2. НЕТЕМАТИЧНЫЙ текст брать. 3. Генерить абсолютную ересь по словарю слов + киворды время от времени. 4. Чисто кеи, а текст брать синонимизированный 5. ваш вариант. Если есть идеи и способы отпишите плиз, так или иначе дорген планируется сделать бесплатным (это будет модификация тиражера)..

S

10

spzero

3 ноября 2009, 09:23

#11

Сделай морфологическую подстановку с учетом частотности слов...

Берешь большой словарь русских слов

Собираешь приличное количество правильного текста(из книжек каких нить)

Берешь предложение из текста,

разбиваешь на слова,

получаешь свойства каждого слова(часть речи, род, время),

заменяешь слова на слова из словаря(с такими же свойствами),

причём проверяешь по частоте пары слов(такой словарь как то надо будет собрать :)).

Всё просто.

Получается полностью грамматически правильный и даже иногда читаемый текст :)

ПС: союзы, частицы и предлоги лучше не заменять, а то коряво получается.

98

BredoGen.

3 ноября 2009, 09:45

#12

Не понимаю, зачем так усложнять генерацию, особенно для дорвеев.

Цепи Маркова всё еще актуальны, либо если хочется сделать текст более менее живым, то:

разбиваем текст на фразы, и вставляем *фраза* *ключ* *фраза* и т.д:)

84

Gorodetskiy

3 ноября 2009, 09:52

#13

BredoGen.:
разбиваем текст на фразы, и вставляем *фраза* *ключ* *фраза* и т.д

Ага, шибко уникальный текст на выходе получится...

Вообще, ребята, советую такие детали обсуждать в личке\аське. Просто методику основную - да, можно узнать совета, узнать минусы, а все остальное - между собой. Вы поймите, вот увидит яндексоид текст выдаче, почитает, и в лучшем случае сможет определить лишь основу, по какому методу делается этот текст, но не учтет всех деталей. Заходит на серч, и тут вы ему алгоритм как на ладони выдаете, нехорошо ведь.

Советы оптимизации от гугла Почему 1 статья дает Упал доход

F

11

freylon

3 ноября 2009, 10:16

#14

Gorodetskiy:
Например в шаблоне глагол "отправить" нельзя заменять на "залезть" - т.к. после этих слов существительные должны идти в разных падежах.

Это такой вот маленький кусочек, что б людям не представлялся весь этот процесс в радужных тонах ;)

это решается путем определения частотности.

"отправить посылку" -> "залезть посылку"

видим, что частотность нулевая и не производим такую замену.

spzero:

Берешь предложение из текста,
разбиваешь на слова,
получаешь свойства каждого слова(часть речи, род, время),

здесь надо добавить, что не всегда можно однозначно определить свойства слова.

предложения со словами "леса", "слова", "дорога" и т.д. лучше не брать.

BredoGen.:
Не понимаю, зачем так усложнять генерацию, особенно для дорвеев.
Цепи Маркова всё еще актуальны, либо если хочется сделать текст более менее живым, то:
разбиваем текст на фразы, и вставляем *фраза* *ключ* *фраза* и т.д:)

я бы на месте яндекса автоматом банил тексты, где ключевик всавляется много раз и каждый раз не по морфологии.

ну еще бы банил за то, что ключевик вставляется так, что частотность примыкающих к нему слов стремится к нулю.

Gorodetskiy:
Ага, шибко уникальный текст на выходе получится...

Вообще, ребята, советую такие детали обсуждать в личке\аське. Просто методику основную - да, можно узнать совета, узнать минусы, а все остальное - между собой. Вы поймите, вот увидит яндексоид текст выдаче, почитает, и в лучшем случае сможет определить лишь основу, по какому методу делается этот текст, но не учтет всех деталей. Заходит на серч, и тут вы ему алгоритм как на ладони выдаете, нехорошо ведь.

мне кажется в яндексе таких алгоритмов знают миллион.

и знали еще наверное 10 лет назад.

SJ

78

sokol_jack

3 ноября 2009, 10:19

#15

Gorodetskiy:
Мда, вот и все люди из этого раздела, у которых есть голова :)

Есть еще из других разделов :p

Под этим понятием я подразумеваю не просто определить морфологию каждого слова и сделать под ним подмену, а так же выделить группу, к которой то или иное слово относится. Например в шаблоне глагол "отправить" нельзя заменять на "залезть" - т.к. после этих слов существительные должны идти в разных падежах.

Глупо. Гораздо разумнее приводить замены к нужным формам (число, падеж...).

И проверять "применяемость" в данном месте по n-граммам. :p

sokol_jack добавил 03.11.2009 в 13:22

Gorodetskiy:
Вы поймите, вот увидит яндексоид текст выдаче, почитает, и в лучшем случае сможет определить лишь основу, по какому методу делается этот текст, но не учтет всех деталей. Заходит на серч, и тут вы ему алгоритм как на ладони выдаете, нехорошо ведь.

Смею вас расстроить. Яндексу не нужен ваш алгоритм. У него и так есть статистика вся, которая ему нужна. И хоть 20 алгоритмов пишите, если разные свойства текста не проходят фильтры Яшки (именно статистически!) - не поможет.

sokol_jack добавил 03.11.2009 в 13:25

freylon:
здесь надо добавить, что не всегда можно однозначно определить свойства слова.
предложения со словами "леса", "слова", "дорога" и т.д. лучше не брать.

Есть решения, которые позволяют снимать омонимию ;)

"На косой косе косарь косой косой косо косил". Как вам?

Смысл примерно такой - "На кривой косе(на берегу) косарь непрямой(испорченной) косой криво косил". :p

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

84

Gorodetskiy

3 ноября 2009, 10:27

#16

freylon:
это решается путем определения частотности.

"отправить посылку" -> "залезть посылку"
видим, что частотность нулевая и не производим такую замену.

Во первых, такие словосочетания как "отловить посылку", "почитать посылку" и т.д., которые не несут никакого смысла, но могут быть восприняты как внятный текст чисто за счет морфологии так же стоит учитывать, в твоем методе их не будет.

Ты, скорее говоришь про метод перемешивания текста, чем генерации с нуля. Т.к. если пробовать генерировать такое с нуля, имея базу словосочетаний разбитую по частотности, то это будет занимать по очень много времени.

Сам подумай, сначала выбрать слово которое подходит по части речи и падежу, затем сопоставить его с предидущим словом, и затем уже попробовав подставить к нему различные предлоги сверить с базой частотности. На выходе будет метр генерироваться больше часа...

freylon:
я бы на месте яндекса автоматом банил тексты, где ключевик всавляется много раз и каждый раз не по морфологии.

ну еще бы банил за то, что ключевик вставляется так, что частотность примыкающих к нему слов стремится к нулю.

Эм, ты почитай тексты на белых сайтах. Именно тех, которые стремятся любой ценой попасть в топ - там только что и видно прямое вхождение кв под порой смешным окружением, которое было искажено лиж бы вставить КВ именно в нужной форме.

freylon:
мне кажется в яндексе таких алгоритмов знают миллион.
и знали еще наверное 10 лет назад.

Одно дело знать (читать "догадываться") как работает алгоритм, другое дело высмотреть его косяки, и обезвредить не задев "живые" сайты. На это уйдет немало времени, но вопрос зачем, если на этом алгоритме никто и не делает текст? Остается вопрос, определить какой текст юзают дорвейщики, определить его и зафильтровать. А тут как на ладони...

SJ

78

sokol_jack

3 ноября 2009, 10:40

#17

Gorodetskiy:
Т.к. если пробовать генерировать такое с нуля, имея базу словосочетаний разбитую по частотности, то это будет занимать по очень много времени.
Сам подумай, сначала выбрать слово которое подходит по части речи и падежу, затем сопоставить его с предидущим словом, и затем уже попробовав подставить к нему различные предлоги сверить с базой частотности. На выходе будет метр генерироваться больше часа...

Я готов тратить час времени на генерацию мб ЧЕЛОВЕЧЕСКОГО контента.

Благо это все оптимизируется и параллелится.

Одно дело знать (читать "догадываться") как работает алгоритм, другое дело высмотреть его косяки, и обезвредить не задев "живые" сайты. На это уйдет немало времени, но вопрос зачем, если на этом алгоритме никто и не делает текст? Остается вопрос, определить какой текст юзают дорвейщики, определить его и зафильтровать. А тут как на ладони...

А еще за CMS и шаблоны банят, ага? :p

84

Gorodetskiy

3 ноября 2009, 10:48

#18

sokol_jack:
Есть еще из других разделов

Да я не про это. Там их сразу видно, т.к. больше по делу разговор идет, а тут умники только и что и могут маты покричать и школоту позагонять, с видом крутого дорвейщика, а как разговор за дело зашел, притихли, боятся глупость вякнуть, а то ведь засмеют.

sokol_jack:
Глупо. Гораздо разумнее приводить замены к нужным формам (число, падеж...).
И проверять "применяемость" в данном месте по n-граммам.

Эх, ну не хочется об этом на людях говорить, скажем так. Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной. А если правильно подобрать группы и задать в настройках какие группы с какими сочетаются - будет в разы быстрее, правда, изредка будут встречаться полу-ляпы. Но это алгоритм можно будет обтачивать вплоть до того, что можно будет задавать тематичность предложений, лишь тем, что более грамотно распределять соотношение групп. А разница работы будет такая же как в скорости работы блендера и старушки которая взбивает крем в миске.

sokol_jack:
Смею вас расстроить. Яндексу не нужен ваш алгоритм. У него и так есть статистика вся, которая ему нужна. И хоть 20 алгоритмов пишите, если разные свойства текста не проходят фильтры Яшки (именно статистически!) - не поможет.

Хм, поумничаю, пожалуй, а назови, пожалуйста, хоть один не статический фильтр яндекса косательно текста? :) Но сверять текст со статистикой - это лишь тест. Конечно, если в распоряжении имеется огромная статистика и методы ее анализа - то можно попробовать сделать из этого что-то путевое, но пока приходится отталкиваться от нуля.

sokol_jack:
Есть решения, которые позволяют снимать омонимию

"На косой косе косарь косой косой косо косил". Как вам?
Смысл примерно такой - "На кривой косе(на берегу) косарь непрямой(испорченной) косой криво косил".

Ну, тут можно допустить и погрешность, я считаю. Опять таки, довольно точный метод определения в разы замедлит генерацию.

В общем, ладно, каждый верит в свое видение ситуации.

P.S. Идет эфир про "черное СЭО", сейчас про черные странички послушаю... А то скучно :(

Gorodetskiy добавил 03.11.2009 в 13:59

sokol_jack:
А еще за CMS и шаблоны банят, ага?

Ну, арбайтен вон рассказывал что сайты на простом хтмл сразу в бан уходят :D :D :D

V

146

vitvvs

3 ноября 2009, 11:47

#19

может стоит поговорить об этом не в паблике?

84

Gorodetskiy

3 ноября 2009, 12:20

#20

Дык и я о чем, но некоторые считают, что

sokol_jack:
Яндексу не нужен ваш алгоритм. У него и так есть статистика вся

Вот так вот.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard

Дорген, генерация текста