Прожарка та лайфхаки Midjourney 5

16 березня вийшла 5 версія нейромережі Midjourney. Ми в New Strategies зробили справжній тест драйв та пройшлися по всім слабким місцям. Щоб результат був наочним відштовхувалися від чотирьох правил:

  1. Можливості нейромережі тестували на основі 8 технік та 6 стилей ілюстрації. Чому саме ілюстрацій? Ми вже писали про можливості нейромережі в брендовій комунікації . Спойлер – вони не дуже. А от ілюстрації це сильний бік нейромережі. Створити принт для футболки, обкладинку для книги, наліпку для вашого iphone або гарну листівку – це все до Midjourney.
  2. Потрійна складність концептів картинки. Ідея кожної картинки буде складатися з трьох складових: 1) об’єкт в кадрі 2) унікальні не стандартні характеристики 3) нестандартна дія, яку робить об’єкт. Чому так? Чим більше і чим складніші поєднання тим більше ймовірність, що нейромережа не впорається та згенерує якусь дичину. Саму тут ми зможемо оцінити рівень творчих навичок.
  3. Акценти. Midjourney постійно факапила генерацію рук, пальців, очей, чисельність предметів в кадрі тощо. Також досить часто не працював алгоритм генерації різних розмірів картинок – тільки квадратні формати. Тому до кожного запита (promt) ми пропишемо додатковий запт на різні акценти в кадрі.
  4. Обов’язкове порівняння с Midjourney 4.

На виході для кожної картинки отримаємо запит (promt) по алгоритму: об’єкт :: унікальні характеристики :: дія :: акценти :: стилізація. Тож почнемо. 

Midjourney 5 на прикладах різних технік ілюстрацій

1. Ілюстрація олівцем. 

Мабуть, одним із найпопулярніших видів ілюстрації є олівцева. Це насичений матеріал, який дозволяє створювати м'які тіні та переходи, а також створювати чіткі лінії. Ми спробуймо використати монохромний стиль – коли малюємо в чб форматі. Ідеєю буде хом'як у піджаку який лежить на дивані та дивиться серіали.  Promt виглядає ось так: hamster -- in a jacket -- lying on the sofa and watching TV series -- liner monochrome Pencil illustration 

Різниця між версіями катастрофічна. v4 згенерував ілюстрації на голову краще. Таке відчуття ніби у v5 якийсь даунгрейд в цьому стилі. Так v4 трохи підмішує інших стилів, але якість картинок суттєво відрізняється. Ви яку б серію картинок взяли для друку (якщо не зважати на стрьомні лапки в обох версіях) ?) 1:0 на користь v4. 

2. Ілюстрація вугіллям.

Ілюстрації вугіллям часто не такі точні, як ілюстрації ручкою та олівцем, але є кращим вибором для ілюстрації коротких оповідань та швидких ескізів. Головна відмінність від малювання олівцем полягає в тому, що лінія вугілля завжди трохи товстіша, м’якша та темніша за якістю. Для ідеї ми обрали Тараса Шевченка який чистить зуби зубною щіткою перед дзеркалом. Promt виглядає ось так: Taras Shevchenko -- brushing his teeth with a toothbrush -- in front of a mirror -- monochrome Charcoal illustration. З віддзеркаленням зазвичай проблеми. Тож подивимося які зміни у 5-й версії.  

Ухх.... Тільки вуса схожі на вуса Тараса Шевченка. Форма голови, лоб, очі, зачіска – жах. Руки відображаються набагато краще, але не без проблем. Ну і найголовніше віддзеркалення. Бачимо, що нейромережа вже розуміє, що воно має бути дзеркальним. Навіть в одному з чотирьох випадків близьке до правди. Але результат поки що не робочий. Дуже багато помилок, хоча якість картинки та відповідність стилю значно покращилися. Балів не нараховуємо жодній з версій. 

3. Акварельна ілюстрація. 

В акварельних ілюстраціях фішка в створенні зображень різної прозорості шляхом додавання води до кольору. Загальне відчуття від акварельних ілюстрацій м’яке, повітряне та з великою глибиною. В нашій ідеї ми створимо ілюстрацію котика та песика, які обіймаються. Формат як для сторіз Instagram. Через те, що нейромережа інколи не розуміє, що котик і собачка мають обійматися, ми додамо тег collage, а щоб зробити її мімімішною дотаємо тег naive. Promt виглядає ось так: cat and dog -- hugging -- simple naive collage watercolor illustration --ar 9:16

Тут ми приємно вражені. Є навіть повністю готові робочі варіанти в яких не треба виправляти пальці, довжину лапок та інші мутації. Так, вони отримані не з першого разу - ми робили варіації картинок. Але у 4-й версії навіть так не вдавалося зробити повністю робочий варіант. Рахунок 1:1 між версіями. 

4. Ілюстрація гуашшю.

Гуашеві фарби схожі на акварельні, але модифіковані так, щоб зробити їх непрозорими. Такий стиль пропонує насичені, густіші, трохи темніші відтінки, ніж акварель. В нашій ідеї буде біла кішка з червоною помадою, яка курить сигарету. Також ми додамо тег full shot, щоб кішка на картинці була в повний зріст. Promt виглядає ось так: white female cat -- with red lipstick on -- smokes cigarettes --Gouache illustration -- full shot

4-а версія сильно програє: 1) не завжди розуміє, що потрібна ілюстрація гуашшю 2) чомусь змінює розмір картинки 3) губи, сигарета та дим не перетинаються 4) креативність та емоційність картинок майже на нулі. 100% перемога 5-ї версії та рахунок стає 1:2. Хоче є і мінус для обох версій. Кішку в повний зріст вони не згенерували. 

5. Колажна ілюстрація. 

Назва походить від французького coller, що означає «склеювати». Це техніка, за якої мистецький твір створюється із сукупності різних форм, часто з різних матеріалів, щоб утворити нове ціле. Тобто тут може бути багато креативу і багато складностей у нейромережі. Щоб допомогти їй ми трішки схитруємо та додамо тег cartoon. Ідея картинки: старий байкер загубив інструменти мотоциклу. Також додамо розмір 3 на 2. Promt виглядає ось так: cartoon -- old biker -- lost tools -- collage illustration --ar 3:2. 

Результат цікавий. Особливо зі скелетом. Занадто старий байкер вийшов). 5-а версія видала більше деталей, зробили їх чіткішими, додала більше мультяшної стилізації. Її варіант нам подобається більше. Але проблема з пальцями, кінцівками та сюрреалістичними запчастинами нікуди не зникла. Рахунок 1:3. 

6. Ілюстрація пером та чорнилом.

Ілюстрування чорнилом дозволяє створювати сильні області контрасту та ідеальне в поєднанні з лінійним вектором. Це одна з найулюбленіших наших технік. В ідеї буде накачений чоловік, який тримає дошку для серфінгу в руках і зображений обов’язково в повний зріст. Promt виглядає ось так: muscled man -- holding a surfboard -- in his hands -- full length -- linear ink illustration.

Отримали ще один даунгрейд. 5-я версія більше відповідає стилю та конкретним тегам (навіть робить серфера у повний зріст), але деталізація та наповнення картинки на рівні дитячого садка. Крім того, змусити тримати серф у руках виявилося дуже складно. Якісь дивні проблеми в 5-ї версії з тонкими лініями. 

Але потім в нас зʼявилась думка. Що якщо 5-а версія робить такі прості ілюстрації через замалу кількість тегів? Спробуємо додати багато інформації та подивимося чи впорається нейромережа. Новий promt буде таким: muscular man in headphones and with a sword -- surfing the waves on a surfboard -- through a driving rain and gale force winds -- in a hurricane at sunset -- stoic but optimistic -- linear ink vector illustration --ar 3:2

Картинки покращилися, але все одно є питання до відображення стиля та реалістичності деталей в кадрі. Можна робити набагато краще. Тому бал віддаємо 4-й версії. Рахунок 2:3. 

7. Векторна графіка.

Векторна ілюстрація має багато варіантів виконання. Тому зробимо декілька прикладів.

Перший запит мила дівчинка з коричневим волоссям та сірими очима яка сидіть. Щоб зробити стилізацію під вектор використовуємо promt vector flat simple illustration. Картинку зробимо у розмірі поста для Instagram 4:5. Фінальний promt виглядає як: chibi girl -- with brown hair and grey eyes -- sitting on -- vector flat simple illustration --ar 4:5

Зображення v5 краще відобразили стилістку, зробили дівчинку гарнішою та деталізованою. v5 перемогла. Але проблеми з пальцями майже всюди, а на деяких картинках є мутації вух, ніг, пропорцій. Такий собі результат. 

Другий запит. Робот в антиутопічному пейзажі рятує останню рослину на землі =). Фінальний promt виглядає як: lonely robot -- in a dystopian landscape -- saving the last plant on earth -- vector flat simple illustration --ar 4:5

Результат нас здивував. Зображення v5 краще відобразили стилістку плоского векторного дизайну, але креативність ідей більш стримана. Варіанти v4 нам сподобалися більше, тут робот хоча б якось взаємодіє з рослинкою. Вважаємо тут паритет. 

8. Цифрова ілюстрація.

Мабуть, це найпопулярніший напрямок в нейромережах зараз. Особливо фотореалізм. Це різні кіногерої, фешн шоу, архітектура, пейзажі та багато різних міксів та концептів. Тож тут ми відірвемося по повній. Наша ідея запросити Майкла Джордана на обід за стіл до Магістра Йоди. Promt ось такий: Michael Jordan and Master Yoda -- drinking tea -- at the dinner table -- photorealistic photography -- 4k

Схоже замість Майкла в гості прийшов постарілий Мейс Вінду. Ех Midjourney, що ж ти знаєш як виглядає Майкл. Але якщо порівняти результат з 4-ю версію, то враження зовсім інше. v4 в принципі не змогла адекватно реалізувати запит: десь Майстер Йода став роботом, а десь перетворився на гобліна. Майкл дуже злий. Обидва вони скоріш вживають алкоголь, аніж теревенять за чаєм. Тож віддаємо бал v5. Хоч і не ідеально, але завдання вона може виконати.  Рахунок 2:4.

Тепер роздивимося 6 прикладів різної стилістики в ілюстрації. 

1. Дитяча ілюстрація. 

Дитяча ілюстрація дуже різноманітна. Все залежить від історії, цільової вікової групи та багато іншого. Проте дитячі ілюстрації барвисті, розповідні, в них завжди щось відбувається. Персонажі милі та доброзичливі. Тож згенеруймо милого маленького білого ведмедика хокеїста який грає зі своїм другом і це все в мультяшному стилі. Promt cute mini polar bears -- playing hockey -- cartoon style --ar 4:3

Мило? Так. Робочий варіант? Ні. Жодна версія не зробила те, що можна одразу публікувати. Забагато помилок в деталях та мутацій тіла. Тому балів не нараховуємо. 

2. Концепт арт.

Ці типи ілюстрацій включають фантастичні ілюстрації, ілюстрації для ігор та різну творчу. У концептуальній ілюстрації художники створюють кілька інтерпретацій (концепції) певної теми, з яких клієнт може вибрати та побачити різні етапи, розвиток і процес створення. Хай в нашому випадку буде двоє міцних чоловіків які б'ються на ринзі та в них люта боротьба. Promt two beefy men -- fighting on a mat -- furious fight -- Concept Art

У v5 менше проблем з кінцівками (але по 6 пальців все ще є), кращі ракурси, більше деталей в кадрі. Ідеї нам також сподобалися більше. Тобто в генерації концептів у v5 перевага. Рахунок 2:4.

3. Комікс.  

Головна відмінність коміксів - поєднання зображень з текстом або іншою візуальною інформацією. Часто текстові засоби, такі як виноски, титри та звуконаслідування, вказують на діалог, розповідь, звукові ефекти чи іншу інформацію. Одразу скажемо, що поставити текст на картинку поки не вміє жодна версія. Тому оцінюємо рівень візуального ряду.  В нашому випадку головним героєм буде милий коргі в стилістиці коміксів DC. Вона трохи похмура та нуарна. Також ми додамо тег "no anime", через те що нейромережа часто плутає стилі. Promt corgi knight -- defending its master -- from evil snakes -- DC comics style -- no anime

Розуміння загального коміксового стилю є. 5-я версія це втілює краще і завжди в рамках стилю. Але малювати комікси жодна версія поки не вміє. Як і відділяти стилістику DC від Marvel. Бал надамо 5-й версії виключно за креативність композицій. Рахунок 2:5.

4. Аніме. 

Великі не реалістичні очі, кольорове волосся, незвичайні зачіски та мультяшний стиль - характерні риси аніме. Тож давайте подивімося як буде виглядати воїн, схожий на відьмака і вершника-привида, який одночасно їде на коні через темний ліс. Promt: warrior who resembles a witcher and a ghost rider simultaneously --rides a horse -- through a dark forest -- anime style

Відьмака нам здалося замало, тому ми вирішили зробити ще декілька прикладів аніме ілюстрації. Вгадайте які герої зображені на картинках та що вони роблять?

Тут повністю перемагає v5. Автор подивився б її аніме, виходить дуже цікаво. А от 4-а версія майже не розпізнає стиль аніме. Рахунок 2:6. Мінус для кожної версії - елементи вершника-привида можна було б інтегрувати краще, а в інших героїв краще пропрацювати кінцівки. 

5. Кіберпанк

Похмура нео нуарна естетика, темрява ночі, неонове сяйво, футуризм та різні технології, ось що характерно для кіберпанку. Це елементи ми будемо шукати та порівнювати в згенерованих картинках. В якості ідеї буде неонова мавпа з кулеметом у відкритому футуристичному космосі. Promt Neon Monkey -- with a machine gun -- in open futuristic space -- cyberpunk stylistics -- hyperrealism

Вау. Концепти нам дуже сподобалися в обох версіях. Але v5 краще обробив кінцівки та обличчя. Загальний рахунок 2:7.

6. Вікторіанський стиль.

Стиль більш притаманний або для портретів або для дизайну інтерʼєрів. Нам цікавий перший варіант. Багато прикрас та коштовностей, характерні орнаменти, стримана палітра кольорів, безліч деревини, багато текстилю, вишуканий одяг. Подивімося, що може Midjourney 5. Наша ідея перемістити Джона Уіка у час Вікторіанської Англії. Promt John Wick -- portrait -- Victorian England style --ar 4:5

Джон, як завжди крутий. Але в v5 його крутості позаздрить навіть Чак Норріс. Особливо через те, що 5-й версії Джон схожий на Кіану Рівза. Бал віддаємо v5 і загальний рахунок стає 2:8.

Війна в Україні. 

Зрозуміло, що це не стиль ілюстрації. Але те, як нейромережа розуміє та може відобразити поточні події - маст хев для нас для розуміння її можливостей. Тож давайте дивитися. Ідея - показати українських військових які перемагають у війні. Promt Ukrainian military -- win the war -- between Ukraine and Russia -- hyperrealism. Картинка без коментаря. Вона все скаже сама за себе. 

Тож які висновки можна зробити.  

Midjourney 5 однозначно краща за 4 версію.

  • Головна відмінність – вона чіткіше зчитує теги та надійніше виконує поставленні завдання. Проте є і мінус. Через чіткість наслідування тегів, в деяких моментах, вона досить стримана і через це страждає креатив.
  • Краще доопрацьовує кінцівки. Але все ще досить часто робить з ними помилки і розраховувати на гарний результат не можна. Краще робити картинки де не має рук.
  • Не має багу з очима, коли вони розпливалися по обличчю як в 4-й версії. Це плюс!
  • Генерує краще концепти та ідеї. Особливо якщо ми говоримо про аніме та фотореалізм.
  • Вже вміє працювати з віддзеркаленнями, але точність навіть не 50%.
  • Гарно підбирає розміри картинок. Взагалі ніяких проблем.
  • Погано працює з лінійним вектором в техніках олівця та чорнильної ручки. Тут даунгрейд, який не можна вирішити навіть детальним описом картинок. 
  • Наявність або відсутність додаткових слів суттєво змінює візуальний стиль підсумкового зображення.
  • З числами нова версія алгоритму справляється краще, хоча все ще не може намалювати правильну кількість об'єктів. 
  • Нейромережа стала генерувати першу версію картинок повільніше, хто б що не казав. А от upscale набагато швидше.

Midjourney 5 вразила нас, але ми чекали більшого =). Ну що ж. Чекаємо версію 6. 

4240