Чому найкращі нейромережі досі не роблять реалізм? Чи роблять?

22 квітня •

308

22 читачі

Nano Banana Pro, GPT Images 2.0, Luma Uni-1 це все ТОПІ які генерують картинки найкращої якості. Картинки які ви приймете за фото. Але...Більшість людей — приймуть. Професійний фотограф — ні. І справа не в пальцях і не в артефактах. Справа у світлі, глибині та дрібних деталях — трьох речах, де нейромережі поки що плутаються. Реалізм у згенерованих зображеннях є. Просто у реального фото маркерів реалізму більше — і саме на цій різниці в щільності маркерів відбувається вся гра.

Останнііх 6 місяців я занурювався у теорію світла, перечитував матеріали з кінематографії, спілкувався з фотографами та класичними режисерами. Паралельно, як роблю постійно, ганяю тести найсильніших генеративних моделей — десятки кадрів, у яких світло є головним героєм.

Нижче покажу шість із цих тестів, як приклад. Щоб ви зрозуміли різницю наочно. Спойлер: моделі стали ще кращими. Але між "дуже якісною симуляцією реальності" і самою реальністю досі є зазор, який AI-митцю треба називати своїм ім'ям.

Спочатку про очевидне: так, вони хороші

Давайте одразу знімемо звинувачення в "AI-скептицизмі з порожніми руками". Nano Banana Pro, GPT Images 2.0 і Luma Uni-1 — це інструменти, які вже сьогодні замінюють цілу низку продакшн-задач: key visual для дисплея, рекламні стіли, контент для соцмереж, мудборди, ілюстрації концептів. Ми в агенції maibutne використовуємо їх щодня і будемо використовувати ще частіше.

Питання не в тому, погані вони чи добрі. Питання в тому, що саме вони роблять — і що ми за це видаємо.

У чому фокус: більше маркерів реалізму vs. менше?

Фотографія — це фізика. Світло йде від джерела, відбивається від поверхні з конкретною шорсткістю, розсіюється у повітрі з конкретною кількістю пилу, потрапляє на сенсор через лінзу з конкретною аберацією. Кожен піксель реального фото — результат мільйона маленьких фізичних подій, і кожна з них залишає свій маркер.

Нейромережа не моделює фізику. Вона статистично вгадує, як мав би виглядати піксель, якби всі ці події відбулися. У 90% сцен це працює. У 10% — там, де світло є головним драматургом, — з'являються зазори. Давайте розберемо шість прикладів.

Приклад 1. Портрет з дзеркалом і софтбоксом

На реальному фото відбувається фізично складна штука: ліворуч б'є холодне блакитне світло софтбокса, праворуч — тепле оранжеве від додаткового джерела, а обличчя ми бачимо у дзеркалі, яке ще й переломлює ці два потоки. Отримуємо класичний cross-lighting з чіткою межею між теплом і холодом просто на шкірі.

Nano Banana 2 (далі буде сама, бо в реалізмі вона краща за Pro) намагається відтворити сцену, але "забуває" про другий колір. Кадр стає монохромно-холодним, оранжеве джерело справа втратило силу і перетворилося на декоративну лампочку. Драма зникла.
GPT Images 2.0 взагалі відмовляється від кольорового контрасту — все рівне, нейтральне, "студійне". Технічно чисто, емоційно мертво.
Luma Uni 1 сміливіше: тримає і холод, і тепло, навіть додає світлове обведення на шапці. Але дивіться уважно на обличчя — воно не передає всіх тональних переходів і гри світла, які дає реальний софтбокс. Зони світла і тіні є, але між ними немає тих десятків проміжних півтонів, через які шкіра виглядає живою.

Жодна модель не вхопила головного: реальне фото — це конфлікт двох світлових світів на одному обличчі. Нейронки замість конфлікту дають гармонію. Бо гармонія — це статистичне середнє. А цікава фотографія живе на відхиленнях.

Приклад 2. Пляшка олії у автентичному інтер'єрі

Тут цікаво, бо реального фото немає — всі чотири варіанти згенеровані. І видно, як моделі між собою трактують одне й те саме завдання.

Nano Banana Pro дає найкинематографічнішу картинку: теплий beam через вікно, пилинки в повітрі, красива глибина різкості. Але придивіться до пляшки — вона світиться зсередини, хоча поруч є вікно як єдине джерело. Фізика порушена, око ловить це як "щось не так", навіть не формулюючи чому.
Nano Banana 2 вирішує проблему по-своєму: ставить пляшку майже на вікно, щоб виправдати контровий світловий пробій. Логічно, але композиційно нудно і рекламно "пласко".
GPT Images 2.0 — класичний приклад "AI-перебору". Соняшник розміром із голову людини, шафки ломляться від пафосного реквізиту, світло "вибухає" зусібіч. Це не українська хата, це її голлівудська фантазія.
Luma Uni 1 виглядає найстриманіше і, парадоксально, найбільш фото-подібно. Але саме їй не вистачає магії — картинка плоска, ніби знято на смартфон у полудень.

Жодна модель не питає себе головного: звідки тут світло і куди воно йде. Усі просто додають "теплу атмосферу" як фільтр.

Приклад 3. Продукт на кухонному столі

Цей приклад — про глибину різкості і про те, як нейромережі не розуміють боке.

На реальному фото розмиття заднього плану м'яке, неоднорідне, з вкрапленнями точкових світлових плям (bokeh balls від металевих поверхонь на кухні). Це робота реальної оптики.

Nano Banana 2 імітує розмиття рівномірним гаусом. Фон виглядає як "блюр у Photoshop" — технічно присутній, оптично фальшивий.
GPT Images 2.0 додає більше реквізиту (томати, зелень), але фон знову "пластиліновий". Плюс у нього нав'язлива ідея — все має бути ідеально теплим, як у рекламі 2008 року.
Luma Uni 1 дає найчистішу композицію, але упаковка маргарину явно менша, ніж має бути — пропорції "попливли". Це характерна помилка моделей: вони не тримають фізичний розмір об'єкта відносно середовища.

Професійний фотограф бачить різницю за 0,3 секунди. Замовник, який платить за рекламу, теж побачить — але не сформулює, а лише відчує, що щось не так. А може і не побачить — і ось це "не побачить" стосується більшості глядачів. Відчуття легкого дискомфорту є, але на свідомому рівні "ніби все ок". Саме на цьому зазорі між відчуттям і усвідомленням і відбувається вся гра.

Приклад 4. Дівчина в покинутій будівлі

Найжорсткіший тест — harsh daylight через скло промислових вікон. Реальне фото: жорсткі тіні від рами падають смугами на обличчя, долоня затіняє очі, хмарно-світле небо працює як велетенський рефлектор.

Nano Banana 2 робить небо занадто блакитним і чистим. Реальне фото знято у серпанку — моделі "покращують" погоду, бо в їх тренувальному датасеті гарне небо зустрічається частіше за реальне. Тіні від рами теж стали м'якшими, ніж мали бути.
GPT Images 2.0 найближче до оригіналу за настроєм, але обличчя дівчини неприродно освітлене знизу — нейронка додала заповнюючого світла, якого в реальній сцені не було. Бо так "красивіше".
Luma Uni 1 — анатомічний фейл. Долоня дівчини непропорційно велика, рука продовжується не з того місця, де має бути плече. Це та сама стара проблема AI з руками — тепер просто захована глибше і вимагає уважного погляду. Крім того, модель раптом накидає ефект "рибочого ока" на звичайний ширококутний об'єктив — спотворення геометрії, якого у вихідному кадрі не було.

Мораль: коли сцена вимагає чесної незручної правди про світло, моделі починають його "покращувати". А покращене світло — це вже не документ, це ілюстрація.

Приклад 5. Жінка на заході сонця з контровим світлом

Класика, на якій спіткаються всі: backlight з сильним flare.

На реальному фото бачимо легкий туман, нечітку гірську гряду, сонячний серпанок, через який обличчя моделі ледь проглядає — саме ця "недосказаність" робить кадр кінематографічним.

Nano Banana 2 і GPT Images 2.0 дають технічно красиві зображення — з rim light на волоссі, з теплим градієнтом неба. Але обидва роблять обличчя надто чітким для такого контрового світла. Фізично це неможливо: якщо сонце за моделлю такої яскравості, обличчя має бути у глибокій тіні або з сильним filter-світлом спереду. Нейромережа "дорисовує" його з нічого.
Luma Uni 1 взагалі не зрозуміла завдання: сонце з'явилося збоку, серпанок зник, атмосфера — нічна прохолодна замість теплої золотої години.

Головна проблема всіх варіантів: шкіра виглядає відретушованою "під нуль". У реального фото шкіра живе, дихає, має мікротекстуру. У AI — ідеальний beauty-retouch, якого у реальності просто немає.

Приклад 6. Портрет з кільцевим світлом і димом

Тест на змішане кольорове світло і об'ємний дим. Реальне фото: холодний тил від ring light, теплий оранжевий дим справа, чіткий перехід на обличчі моделі.

Nano Banana 2 дає чистий портрет з димом, але дим виглядає як стокова текстура, накладена зверху. У реальному кадрі дим переломлює світло, у згенерованому — просто лежить шаром.
GPT Image 2.0 найсильніший тут: об'єм є, шкіра з порами, дим пов'язаний зі світлом. Але — класична помилка — очі моделі надто "ідеальні", плюс тотальна ретуш шкіри і обличчя. Це AI-обличчя, яке ми вже навчилися впізнавати підсвідомо.
Luma Uni 1 пересолила з зеленим відтінком — виглядає радше як кольоровий гель на освітлювачі, ніж як ring light. Дим хороший, але модель "прилипла" до заднього плану, об'єм провалився.

Що тут насправді відбувається?

Три речі, у яких нейромережі поки що плутаються і їм не вистачає потужності:

Світло як драматургія. Модель знає, як виглядає "красивий рембрандт" або "красивий backlight". Вона не знає, як світло розповідає історію — коли треба зруйнувати правило, коли лишити пересвіт, коли дозволити тіні з'їсти пів обличчя.
Глибина різкості як оптика. AI імітує DOF через розмиття, а не моделює оптичну систему. Тому фон завжди "блюриться як у фотошопі", а не "розпадається як на 85mm f/1.4".
Дрібні деталі. Мікротекстура шкіри, природний блиск очей, волоски не на місці, нерівність тканини, відбиття на металі, ледь помітна аберація на контурах. Шкіра — лише одна з таких деталей. Саме у щільності цих маркерів реалізму поки що виграє реальна зйомка.

Але ж ми кажемо клієнтам, що AI — це круто. Суперечність?

Ні. Суперечності немає, є рівень деталізації відповіді.

Говорити "AI вміє все" — маркетингова брехня, яка через півроку повернеться рекламаціями від клієнта, коли його продукт на AI-фото виглядатиме як пластмаса. Говорити "AI нічого не вміє" — луддизм, який коштуватиме репутації чи втрати можливостей.

Правильна позиція AI-митція— третя: AI вміє конкретні речі конкретно добре, і є задачі, де його не можна використовувати без домішку реального матеріалу або без свідомої стилізації. Знати, де проходить ця межа — це і є професія. Це не проти AI. Це за професійне поводження з AI.

Сухий залишок

AI-зображення у 2026 році — це симуляція реальності, яка для більшості глядачів уже невідрізнима від реальності. Це робочий продукт, і з ним треба працювати.

Але професіонал, який називає симуляцію "реальним фото", обманює або себе, або клієнта — і в обох випадках втрачає кваліфікацію.

Задача AI-режисера на 2026 рік — три речі:

Тестувати моделі постійно і підбирати конкретну модель під конкретну задачу. Не казати – "GPT робить кращий реалізм за Банан". Nano Banana Pro не замінить GPT Images 2.0, а той не замінить Luma Uni-1. Кожна виграє у своєму. Ось в чому сіль.
Розуміти фізику і філософію світла — і інтегрувати це розуміння у свої промпти та промпт генератори. Без цього навіть найкраща модель віддасть вам красивий AI-середнячок, або ще гірше.
Не плутати реальність і симуляцію реальності. Це не про Матрицю)). Просто треба називати речі своїми іменами — перед клієнтом, перед командою, перед собою.

Реальна реальність фото поки що багатша на маркери за фото симуляцію. І тому реальні фотографи ще не втратили роботу — вони отримали нового колегу, який добре малює, але плутає бачить світло та деталі.

Питання лише в тому, щоб ми, AI-митці, навчились бачити це замість нейронок.