Огляд оновлення Midjourney v6 (альфа)

Конкуренція на ринку генерації зображень посилюється. DALL-E випустила версію 3 та повноцінно інтегрувалась в Chat GPT та Bing, а Stable Diffusion продовжує розширювати свій функціонал та починає працювати з відео. Midjourney тим часом не робила революцій і викочувала лише мінімальні апдейти. Тому 6 версію чекали довго. Чекали 9 місяців. Але отримали лише альфа-версію, з неповним функціоналом. Чи так все погано, чи навпаки - є за що похвалити? Розглянемо детальніше ключові оновлення.  

1. Краще розуміння promt

Тепер Midjourney краще інтерпретує та розуміє promt. Тепер вона може розуміти нюанси як пунктуації, так і граматики. Серйозно змінилась модель аналізу. Старі promt, з великою ймовірністю, будуть сприйняті інакше і результат буде відрізнятися. Для того, щоб згенерувати те, що вам потрібно, доведеться перенавчитися promt engineering. Ось декілька порад після тестування версії:

  • Не використовуйте стандартні підказки стилізації по типу "hyperrealism, photorealistic, 4k, 8k, HD і т.д.". Вони тепер вбудовані за замовчення і тільки погіршать результат. 
  • Пишіть все своїми словами й чітко, чого ви хочете. Якщо ви говорите "людяно", тепер нейромережа зрозуміє вас швидше і краще.
  • Якщо вам потрібне щось більш фотографічне або більш буквальне, вам, слід використовувати --style raw. Також можна додавати тег "unsplash"
  • Менші значення --stylize (за замовчуванням s 100) можуть сприяти кращому розумінню, а вищі значення (до s 1000) можуть мати кращу естетику. Значення --stylize тепер впливає набагато сильніше. 
  • Ідеальна (на поточний момент) структура promt виглядає ось так: angle + subject + colors + mood + background + visual details + style + aspect ratio. Прописувати назви для кожного маркеру не обовʼязково.  
Ось декілька прикладів нижче у порівнянні з попередньою версією,  DALL-E та Stable Diffusion:

1. Promt: angle: close-up photo subject: of a man in a military futuristic suit, colors: black blue warm light mood: foggy background: mountains north nature, visual details: muted tones, warm light style: low contrast --ar 16:9

2. Promt: a playful scene of a sad crying potato who lost the running race and a happy apple who won the race, being enacted on the stage, carrots are cheering in the background --ar 16:9

3. Promt: angle: close-up of subject: a lemur wearing pink glasses green shirt and red hat, mood: bit hot, visual details: background: beach, style: storm --ar 16:9

4. Promt: tom cruise as a sith lord with red lightsaber --ar 16:9 

(DALL-E явно програє =)

2. Можливість генерації текстів

Нарешті можна додавати текстові написи зверху картинок. Для цього потрібно написати свій текст у "лапках", і використовувати значення --style raw або нижчі значення --stylize, щоб покращити зчитуваність promt. Ось декілька прикладів: 

1. Promt: cinematic poster of close-up Jared Leto in Netflix’s Rasputin, text "Netflix", background: church inside --ar 16:9 --style raw

2. Promt A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "Herbalife snacks" featured prominently --ar 16:9 --style raw

3. Глибина деталізації зображень

Більша кількість врахованих деталей сильно відчувається на рівні фотографії, портретів і особливо героїв з кіно. Також оновились опції upscale: звичайне покращення деталізації та більш креативне. Ось декілька прикладів: 

1 Promt: movie shot of Batman in Ukraine city with a sign on a building in the background saying "MidJourney V6 is here" --ar 16:9

2. Promt: close-up portrait of Arnold Schwarzenegger's face. The colors should be deep blue, metallic gray, and black, The background should be a slightly blurred futuristic setting, adding depth to the portrait while keeping the focus on his detailed facial --ar 16:9

4. Врахування більшої кількості деталей з Promt

Нейромережі, частіше за все, гарно зчитують 2-3 елементи. Наприклад, якщо прописати колір окулярів, тип одягу і прикраси на обличчі - вони впораються і помилок майже не допустять. Але зі збільшенням деталей починаються мутації, відхилення від promt та хаос. Midjourney намагалась збільшити кількість зчитуємих деталей. Частково це вийшло, але збої ще бувають. Ось результат на прикладі мультипромту: A woman with red glasses and the blue earrings, she is wearing a black sweater, she is sitting in a green car, she is smiling and extremely happy, she is smoking a cigarette, there is a white Labrador in the backseat of the car, the Labrador is wearing pink sunglasses, unspash --ar 16:9

Проблеми, поточної версії

1. Обмежений функціонал

Для поточної версії не доступні опції: Pan, Zoom - дозволяла домальовувати (анкропити) картинки, Vary (region) - дозволяла редагувати картинки, tune, та describe. 

2. Все ще є проблеми з генерацією кінцівок та рефлексів 

У 6 версії Midjourney майже виправили ці мутації, але баг все ще присутній і трапляється досить часто. Проте, якщо порівнювати з іншими нейромережами, то якість на голову вище.  

Висновок

Конкуренція змусила Midjourney діяти та викотити "сиру" не фінальну 6 версію. Революційних змін не має, лише дрібні покращення і така очікувана можливість роботи з текстом. На початку формування ринку Midjourney дійсно була флагманом категорії, але чим далі, тим важче їй встигати за конкуренцією. Хоча з іншого боку і сама категорія вперлась у глухий кут. Midjourney стала дійсно краще, але в розумінні promt, все ще програє DALL-E. Однак Midjourney все ще виділяється тим, що зображення виходять неймовірно естетичними, має найбільший функціонал та швидкість роботи. Будемо чекати на повну 6 версію й обов'язково її потестуємо. 

2347