Так тебе никто не мешает дорабатывать промт так, как тебе нравится, добавляя подсказки на уровне "natural lighting, shallow depth of field, DSLR, 50mm lens, soft shadows, realistic textures, no CGI, no render, no painting", чтоб не было "вычурно", да и "вычурно" дело вкуса.
гугл читает текст с картинки и скорее всего учитывает, но очень незначительно, например из 100 параметров, текст с картинки влияет меньше 0.1
Ну т.е. вот, сделано за 2 секунды, промт: чашка кофе на столе, что в ней ИИ шного?
слишком вычурно, сразу видно - генерат)определить ген достаточно легко, это минимальные затраты на низкочастотном CPU