Порівняння графічних нейромереж. ТОП-10

Ми вже робили огляд ТОП-10 нейромереж по різним напрямкам. Генерація зображень була одним із них. Ми поверхнево доторкнулися до цих компаній і заочно визнали Midjourney найкращою. Але якісь деталі або наочне порівняння не робили. Тож ми вирішили це виправити й розклали все по поличках в цій статті. Далі буде огляд найактуальніших нейромереж в генерації зображень, а саме: Midjourney, Leonardo AI, Stable Diffusion XL, Bing Image Creator, DALL-E, Lexica Art, Ideogram AI, BlueWillow, Craiyon, Kandinsky

Щоб визначити найкращу ми порівняємо декілька результатів генерацій, потім ціни, а також частково опишемо унікальний функціонал кожної. Почнемо!

Порівняння функціонала та цін


Midjourney

Окрім генерації картинок нейромережа дозволяє:

  1. Покращувати деталізацію картинки до 2 або 4 разів. Правда триває це досить довго по часу.
  2. Анкропити зображення (домальовувати навколишнє середовище) до 1,5 або 2 масштабу через опції Zoom out або стрілочками.
  3. Поєднувати 2-3 картинки між собою, створювати їх мікс.
  4. Задавати будь-які розміри картинок, а не тільки квадратні.
  5. Дуже швидко створювати варіації картинок відповідно до заданої, через опції Vary (strong), Vary (subtle). Це сильно прискорює доведення генерації до ідеалу.
  6. Швидко створювати контент під аніме стилістику.
  7. Створювати генерацію відповідно до завантаженої картинки. Наприклад надалі свою фотографію за посиланням, а нейромережа зробила генерацію відповідно до вашого фото.
  8. Отримувати опис promt за допомогою команди /describe.
  9. Шукати різні promt або генерації в галереї робіт. Ідеальний варіант для натхнення, або розуміння, як створити promt. 
  10. І найголовніше – редагувати генерацію в самій картинці, через опцію Vary (region). 

Серед мінусів – робота виключно через Discord, через що, не має можливості створити легкий доступ для всієї команди на один акаунт. Наприклад для Chat GPT така опція є. І так, ми знаємо, що можна створити корпоративний Discord, але це не так зручно. 

За ціною Midjourney найдорожча серед всіх нейромереж. Це її другий мінус. На наш досвід оптимальна опція ProPlan за 60$, бо саме тут є повний функціонал й одразу доступні всі оновлення. За 60$ можна отримати приблизно 750 генерацій по 4 картинки, в залежності від їх складності. Для Стандартного плану часто не доступні нові функції, а також не можна генерувати по 12 потоків одночасно. Basic підходить лише для тестування нейромережі, а Mega Plan, якщо потрібно дуже багато генерацій. При підписці на рік буде знижка 20%, але для цього потрібно оплатити 12 місяців.

Leonardo AI

Нейромережа цікава різними моделями генерацій зображень і дозволяє:

  1. Покращувати деталізацію картинки. По якості на нашу думку програє Midjourney.

  2. Анкропити картинки можна, але в не великому масштабі. Зробити це можливо лише 1 раз для картинки. 

  3. Задавати розміри картинок можна, але вони обмежені до розміру не менше 512 і не більше 1 536 пікселів. При цьому не в усіх генеративних моделях працює зміна розміру. 

  4. Є вбудований promt генератор. 

  5. Генерація відповідно до наданої фотографії є. Можна завантажити потрібне фото в окреме віконце і далі працювати з ним. 

  6. Галереє фотографій присутня, але на нашу думку трохи програє Midjourney, через не таку велику популярність. 

  7. Редагувати картинки можна через Canva. Також можна трохи допрацювати руки та обличчя через Alchemy Refiner в платних версіях. 

  8. Є повноцінна вебверсія і мобільний додаток. 

  9. Головна перевага – безліч генеративних моделей, що дозволяє підібрати найліпший варіант, якщо потрібно погратися з креативом. Також Leonardo дозволяє видаляти фон зі згенерованої картинки, хоча працює це погано. 

Слабкі сторони - поки не вміє генерувати варіації картинок відповідно до вже згенерованої картинки (тільки новий промт) та якісно міксувати різні картинки між собою – поставити обличчя зірки на потрібну фотографію можна лише через корекцію promt, а про обʼєднання двох різних картинок навіть не говоримо. 

За ціною Leonardo AI дешевша ніж Midjourney умовно в 1,5-2 рази. У максимальному пакеті Maestro користувачу надається 60 тис. токенів. Якщо генерувати зображення через найкращу модель Leonardo Diffusion XL Alchemy 2, то вартість однієї генерації на 4 картинки великого розміру буде коштувати 32-40 токенів. При цьому кожного дня користувачу доступно 150 безкоштовних токенів зверху. Але є і мінус - кожна додаткова дія (наприклад апскейл або видалення фону) в Leonardo коштує додаткові токени. Таким чином за 60 тис. токенів можна зробити десь 1 500-2 000 генерацій по 4 картинки з різними опціями. Враховуючи велику кількість моделей та можливостей для експериментів саме пакет Maestro оптимальний – інші дуже швидко закінчуються). Пакет Artisan теж має права на життя і інколи його вистачає для повноцінної роботи. 

Stable Diffusion XL

Код Stable Diffusion XL є на github, а попрацювати з нею можна через інтерфейс сайту clipdrop. Тому далі поговоримо саме про можливості сервісу clipdrop, який надає наступні можливості:

  1. Покращення деталізації до 2, 4, 8, 16 разів. Це найліпші можливості серед всіх нейромереж з порівняння. 
  2. Анкропити картинки майже як в Adobe Firefly, або іноді навіть краще. Працює трохи інакше ніж в Midjourney, але результат гарний. 
  3. Міксу картинок не має, але є функціонал заміни фону. 
  4. Змінювати розмір картинок, але виключно в наданих сервісом розмірах. Тобто певний функціонал є, але не дуже зручний. 
  5. Перегенерувати картинку, отримавши нову її варіацію. Дії гірше ніж в Midjourney. 
  6. Всі картинки одразу можна відредагувати. Правда редагування дозволяє лише видалити обʼєкти й не дозволяє змінити їх. Наприклад перегенерувати руки, пальці та обличчя. 
  7. Додатково з будь-якої картинки можна видалити фон, змінити пропорції кольорів, замінити небо, видалити виключно текст, або згенерувати картинки на базі дудла, який ви намалювали від руки. 

Слабкі сторони – не можна генерувати картинки за наданим фото (функція Reimagine не спрацює правильно), отримати опис promt, відсутня галерея. Але найголовніший мінус - не має історії генерації картинок. Тому якщо картинку, обовʼязково завантажте її, бо інакше вже не знайдете. 

За ціною Stable Diffusion коштує ~13$ або 489 грн. На жаль в безкоштовній версії функціонал Stable Diffusion XL вже не доступний. За ці гроші можна отримати 1500 картинок або 375 генерацій по 4 картинки. І це лише обмеження на день. Тобто за місяць ліміт 11+ тис. В порівнянні з іншими це дуже круто.  

DALL·E

На поточний момент існує дві версії DALL·E:

  • DALL·E 2 знаходиться за посиланням, редагувати картинки можна за тут. За 15$ можна придбати 115 кредитів. Вистачає їх на малу кількість генерацій, а самі генерації дуже погані. Тому нещодавно вийшла версія 3.
  • опис DALL·E 3 можна почитати на офіційному сайту, інструкцію з користування тут, а от працювати з нею можна прямо в Chat GPT платної версії. Для цього потрібно поставити в налаштуваннях галочку, як на скріншоті.

Така модель роботи є і головним мінусом і головним плюсом. Мінус, тому що в DALL·E 3 немає ніяких додаткових опцій. Вона не може абсолютно нічого додаткового. Похизуватися можна лише наявністю вебверсії. З іншого боку інтеграція в Chat GPT дозволяє створювати цікаві promt та працювати над їх видозміною. Виглядає це ось так:

За ціною DALL·E 3 умовно безкоштовна, а кількість генерацій умовна нескінченна, знову ж таки через інтеграцію в Chat GPT. Якщо ж вам потрібна тільки DALL·E 3, то можна орієнтуватися на ціни у 20$ самого Chat GPT.

Bing Image Creator

Bing пошукова система, що належить компанії Microsoft. Якщо перейти в розділ зображення, то зʼявиться кнопка створити зображення і ми зможемо генерувати картинки в окремому інтерфейсі

В основі лежить модель DALL·E 3. Тому суттєвої різниці з використанням в рамках Chat GPT не помітно. Невеличка різниця у двох моментах. Перший і це плюс – за рахунок окремого акаунта є невеличка галерея і всі картинки можна зберігати в окремому вікні. Друга і це мінус – Bing гірше розуміє, що ви від нього хочете. Наприклад, задати розмір картинки просто написавши фразу "aspect ratio хххх" нічого не дасть. Всі картинки за замовченням будуть квадратними. 

Генерація зображень безкоштовна. Але на день надається 25 токенів. Коли вони закінчаться генерація триватиме дуже довго. 

Ideogram AI

Ще одна нейромережа, але на відміну від інших єдина здатна згенерувати потрібний текст на картинці. 

Функціонал досить обмежений. Нейромережа дозволяє задати лише 3 розміри картинок, обрати один з наданих стилів генерації, робити варіації картинок, має галерею та вебверсію. Унікальна можливість - може згенерувати потрібний напис на картинці, хоч спрацьовує не завжди. Іншого функціоналу не має. 

Плюсом буде її безкоштовність та нескінченна кількість генерацій.

Lexica Art

Нейромережа дозволяє:

  1. Змінювати розмір картинок в діапазоні від 576 до 1728 пікселів.
  2. Обирати надані нею стилі генерації.
  3. Легко додавати картинки до своєї колекції. 
  4. Є не погана галерея і вебверсія. 

І на цьому все. Тому серед мінусів – обмеженість функціонала і висока ціна. На нашу думку, нейромережа невиправдано дорога, бо коштує на рівні Leonardo та Midjourney, а по функціоналу сильно програє.

Власне за ціною доступні три пакети. Опції схожі на опції Midjourney. В Max ви отримуєте 7 тис. генерацій та приватність. Річна підписка надає знижку 20%. За 60$ ви отримаєте 7 тис. картинок, або 1750 генерацій по 4 картинки, що порівнюється з Leonardo AI. 

BlueWillow

Нейромережа майже аналог Midjourney, бо починала працювати через Discord та схожа на рівні команд. На сьогоднішній момент вже має вебверсію через сайт Limewire. Нейромережа дозволяє:

  1. Покращувати деталізацію картинки нескінченну кількість разів. Результати дуже гарні. 
  2. Анкропити зображення, як в Midjourney стрілочками або по всій площині. Остання опція працює не завжди чітко. 
  3. Створювати генерацію відповідно до завантаженої картинки. Виходить не погано, але трохи гірше ніж в Midjourney. 
  4. Шукати різні promt або генерації в галереї робіт.
  5. Обрати додаткові моделі генерація, включно зі Stable Diffusion XL. 
  6. Є вебверсія і можна під'єднати всю робочу команду на акаунт. 

Серед мінусів 

  • Можна задавати лише 3 розміри картинок для основної моделі BlueWillow v4
  • Варіації картинок робити можна, але це скоріше опції реміксу, тобто створення нової картинки на базі заданої. Midjourney своїми опціями Vary робить це швидше і краще. 
  • Не має можливості міксувати картинки . Крім цього кожна дія коштує в середньому по 1,5 токени. Хочете покращити якість зображення, анкропити його або редагувати - 1,5 токени. Це трохи бісить). 
  • Отримувати опис promt за допомогою команди /describe.

За ціною BlueWillow дає 5 пакетів, включно з безкоштовним, але він дозволить створити лише 5-8 генерацій. Pro Plan найкращий для постійної роботи. За 49$ ви отримаєте 5 тис. токенів або 833 генерації по 4 картинки. Кожна коштує приблизно 1,5 токени. Але памʼятайте, що кожна додаткова дія це теж в середньому 1,5 токени. Тому при постійній роботі і генерації по 4 картинки за раз на місяць буде виходити десь 600 генерацій. Це досить мало за такі гроші. Плюс BlueWillow в тому, що в ній можна генерувати по 1 або 2 картинки. Таким чином кількість генерацій можна збільшити до 3333. 

Craiyon

Нейромережа використовує модель DALL-E. Виходячи з якості генерацій скоріш за все не останньої версії. Власне і можливості низькі й дуже обмежені. Окрім галереї в Discord та наявності вебверсії похизуватися нічим. Навіть функціонал покращення деталізації картинки працює лише до збільшення розміру 1024 на 1024. Серед унікальних моментів - нейромережа генерує не 1 або 4 картинки за раз, а цілих 9. 

За ціною, окрім безкоштовної версії є 3 пакети. Оптимальний для швидкої роботи - Prodessional за 20$. Кількість генерацій не обмежена, обмежується лише їх швидкість створення. Теж унікальне рішення. Також платна підписка прибирає набридливу рекламу. 

Kandinsky 

Остання нейромережа і гарний приклад того, як робити не потрібно. Для України доступна через сервіс zoo.replicate.dev. Вартість безкоштовна, функціонал обмежений. Тому далі будемо роздивлятися її виключно для порівняння якості генерацій

Порівняння результатів генерації

Для порівняння візьмемо 10 різних напрямків. Кожна генерація буде йти у форматі 4 на 4, тому що він 100% є в кожній нейромережі. Оцінювати будемо по шкалі від 1 до 10 балів. Оцінюємо не з точки зору креативу, бо це поняття для кожного своє. Оцінюємо з точки зору відповідності до promt (те яку кількість побажань врахувала нейромережа) і якість картинки (яку кількість деталей відобразила нейромережа, чи є якісь мутації та артефакти). Почнемо. 

1. Портрет людини

Найпростіша задача. Хай це буде Українка, в полі з нашим прапором, середній план. Нейромережі, зазвичай погано працюють з прапорами та українцями, тому подивимося на що вони здатні сьогодні. Promt "30 years old woman in a field, with Ukraine flag, СOLOR: Blue, Yellow, Plan: mid - shot"

Неочікувано саме Bing IC на нашу думку зробив найкращу картинку. Midjourney була близька, але схитрувала та сховала руки. Leonardo, DALL-E 3 та SD XL мутували пальці та очі, а Leonardo взагалі не створив прапор. Інші нейромережі впорались погано. 

2. Тваринка

Спробуємо згенерувати фотореалістичного котика, який біжить по полю. Дивимося в першу чергу на пропориції, наявність мутацій та якість очей. Promt "Realistic mid - shot of black cute cat. Cat full body close up runs through a field . A 4k photo realistic wide lens shot, cinematic Netflix show, very detailed, a lot of light and warm ambience, Shot on Kodachrome, film grain, halation and bloom in highlights". 

Midjourney, Leonardo, SD XL ідеально впорались із завданням. Lexica, BlueWillow, Bing IC та Kandinsky трохи побили якість картинки. Інші зробили котиків не реалістичними. 

3. Ілюстрація

Рухаємося від фотореалізму до вигаданих світів. Подивімося, чи зможуть нейромережі згенерувати дитячу акварельну ілюстрацію поросяти, що пішло пограти у футбол. Promt "child's watercolor illustration of a pig went to play football". Дивимося, щоб була саме акварельна ілюстрація, футбольний м'ячик, мультяшне порося і чи рухається воно в кадрі. 

Midjourney та Leonardo майже на рівні, хоча в останнього більше мутацій з пальцями та форма з американського футболу. SD XL відмовився генерувати. Повірте ми спробували безліч promt. Bing IC справжня знахідка. Хоч це не акварель, але ілюстрація дуже гарна. Інші на задовільному рівні або гірше. 

4. Оточення

Тепер подивимося, як впораються нейромережі з пейзажами та оточенням. Дивимося на кількість деталей, освітлення, тіні, глибину промальовки. Promt "futuristic city with advanced transportation systems, VISUAL STYLE: Jimmy Nelsson"

Midjourney випереджає всіх деталізацією та кількістю обʼєктів в кадрі. Bing IC та DALL-E 3 вразили кількістю деталей, але якщо придивитися, то помітні мутації та падає якість. SD XL та Lexica зробили не погану роботу, але при масштабуванні сильно падає якість. Інші дуже слабкі. 

5. Гейм персонаж

Спробуємо створити 3d модель персонажа для ігор. Хай це буде накачаний орк монах (таке от протиріччя) із зеленою шкірою, в червоних ботах, одягнений лише в штани. Дивимося, щоб всі ці нюанси нейромережі відтворили. Promt "full body pose of zippy the pinhead orc monk, warhammer 40 k style, male, incredibly muscular, dark green skin, oversized big red shoes, face paint, wearing a only a loin cloth"

Midjourney врахувала всі деталі. Leonardo та Bing IC зробили чіткі моделі, але трохи гірше. SD XL та Lexica Art задовільно. Решта нейромереж впорались із завданням погано. 

6. Мультиплікація

Дивимось, як нейромережі вміють малювати мультики. Візьмемо найвпізнаванішу стилістику - аніме. Хай це буде ніндзя з кинджалом, який ховається за деревом і дивиться на будинок за річкою де знаходяться люди. Чим більше деталей – тим цікавішою може бути композиція. Promt "anime style, ninja hiding behind a tree, his mask is off, blue eyes, black hair, blue and black clothes with a few pieces of metal armour, has a red dagger out applying poison on it. The ninja is looking at a japanese style backyard with a pond and a bridge where his target is talking to his wife and children. It's night time with the moon illuminating them and making the shadows darker. A few clouds are in sky trying to hide the moon"

Bing IC та DALL-E 3 хоч і гірше в деталях, але відобразили ідею найкраще. Ще й аніме стиль передали ідеально. Midjourney створила цікаву генерацію, але зізнаємося, що витратили на неї багато часу. Тому тут менше балів. Leonardo промахнувся композицією. SD XL, Lexica Art та BlueWillow зробили задовільні генерації. 

7. Бренд герой

Уявімо, що нам потрібно створити бренд героя, який буде вести соцмережі у фановій манері на постійній основі. Подивімось, наскільки нам зможуть допомогти нейромережі. Хай бренд героєм буде курка. Promt "A very ridiculous caricature of a funny chicken, in the style of children's book illustrations, chris samnee, animated gifs, daniel ridgway knight, black and white drawings, toy proportions, jeff kinney on white background"

Leonardo згенерував найкращу ілюстрацію. Більш того, він чітко задавав стилістику іншим своїм варіантам, тому з нейромережею можна було б і надалі працювати при створенні контенту. Невеличкий мінус – ми хотіли щось більш божевільне та веселе. З цієї точки зору краще впоралися Midjourney та Bing IC. Midjourney так само як і Leonardo видавав багато прикладів в подібній стилістиці. А от Bing IC був не таким стабільним, тому отримає менше балів. Всі інші не впоралися. 

8. Лого

На початку року нейромережі погано створювали логотипу. Дізнаймося на скільки це змінилось. Створимо логотип диджитальної агенції New Strategies Group у формі гексагону та темно синьому кольорі. Promt "logo for a digital agency called New Strategies Group, 1 color, blue, white background, use hexagone shape, line art pixel art, clean design. the company product smm and digital content"

Lexica Art та Bing IC спробували написати правильну назву. Midjourney намагалась вилизати дизайн лого. Але результат у всіх поганий. Лого створювати в нейромережах на поточний момент неможливо. 

9. Веб-дизайн

Нейромережа можна використовувати для натхнення при розробці сайтів та мобільних додатків. Дізнаймося, яка з них найкраща в цьому. Створимо дизайн головної сторінки сайта енергетичного напоя. Promt "One product is the e - commerce website design of energy drink, with green neon background, minimalist style and fire style. The illustrations are night club made with dance part and so on, including logo, navigation bar, banner, main products, etc, Ul web page design"

3 нейромережі навіть не змогли відтворити задачу. Midjourney, SD XL, Lexica Art запропонували цікаві рішення, які можна було б розвинути далі. 

10. Абстракція

Останній пункт порівняння. Ми обіцяли, що не будемо порівнювати креатив генерацій на рівні картинок. Але порівняти мислення нейромереж ми зможемо. Нехай вони створять шаховий караван в пустелі. Ми не будемо вказувати пріоритети. Таким чином нейромережа сама визначить, що брати за основу – караван із шахів, чи людей в пустелі вишикуваних в шаховому порядку. Promt "chess caravan in the desert"

Midjourney, Bing IC та DALL-E 3 на нашу думку видали найбільш не стандартні рішення. Midjourney навіть намагалась розв'язувати задачу в повному обсязі: і караван, і шахи, що рухається пустелею. Всі інші нейромережі, чомусь вирішили зробити акцент на хатинках на колесах. Тому всі отримають мало балів. 

Total

Всі дані ми звели в таблицю, для кращої візуалізації. 

Висновок

Ідеальної нейромережі не має. Але декілька ми можемо виділити:

  1. Midjourney. Набрала найбільше балів, що по функціоналу, що по якості генерацій. На сьогодні це найкраща нейромережа для генерації зображень, що дозволяє швидко та якісно працювати з генеративним контентом. Єдиний мінус – найбільша вартість серед всіх. Вам вирішувати чи варто платити 60$ для першості в цих перегонах.
  2. Bing Image Creator. Нейромережа стала справжньою знахідкою. Хоч вона має купу недоліків по функціоналу, але умовна безкоштовність та чіткість зчитування promt просто вражає. Навіть Midjourney не завжди встигає за нею. Взагалі поява моделей на базі DALL-E 3 вдихнуло нове життя в генерацію контенту. Чекаємо на версію 4. 
  3. Stable Diffusion XL. Стала набагато кращою після оновлення до версії XL 1.0. Але як показало порівняння вона навіть не на 3-у місці, а ще й функціонал генерації зображень став платним. З іншого сервіс clipdrop, в якому представлена нейромережа, надає унікальний функціонал видаленні фонів, перефарбовування картинок та іншого. Тож clipdrop можна користуватися, як допоміжною нейромережею. 
  4. Від Leonardo ми очікували більшого, як від платної нейромережі. В порівнянні з іншими платними нейромережами (окрім Midjourney) вона точно ліпша. Рекомендуємо роздивлятися її на постійну роботу, як мінімум для тестів в безкоштовній версії на 150 токенів на день, як максимум в якості основної генеративної нейромережі, замість Midjourney, якщо ціна важить більше за функціонал. 
3
5658