ТОП-5 найкращих відео нейромереж. Порівняння

Вчора, Haiper AI оновилась і дозволила генерувати відео по 4 секунди, трохи раніше Runway додала функціонал Lip Sync, а ще раніше Stable video відкрили бету для публічного доступу. Що ж, настав той час, коли варто порівняти 5 найпопулярніших нейромереж по генерації відео і вирішити, які з них найкращі і якими варто користуватись. 

Методологія

Порівнювати будемо по наступним критеріям:

  1. Якість генерацій. Тут оцінюємо суто якість отриманного матеріалу.
  2. Ефективність, або швидкість з якою отримаємо відео, відповідне до заданого брифу. Тут роздивимось і можливості налаштування анімації, і швидкість створення генерацій, кількість одночасних генерацій і навіть тіньові бани.
  3. Додаткові можливості від кожного сервісу. Наприклад анімація губ чи створення звукових ефектів, чи ще щось інше.
  4. Ціна. Як за відео, так в цілому за проєкт.

Відео нейронки, які будуть в огляді:

  1. Haiper AI https://haiper.ai/
  2. Runway https://runwayml.com/
  3. Pixverse https://pixverse.ai/
  4. Stable Video https://www.stablevideo.com/
  5. Pika art https://pika.art/

Також є, Leonardo Motion, в рамках нейромережі Leonardo AI https://leonardo.ai/, але на нашу думку вона сильно програє конкурентам. Розуміємо, що багато хто нею може користуватись через доступність, але ми в жодному нашому проєкті так і не змогли використати, хоча б одну генерацію від неї. Тому порівнянні її не буде.

Поїхали!

Якість анімацій

Порівнювати будемо по чотирьох напрямкам:

  1. Image to Video, один об’єкт в різних ракурсах. Це найпростіша задача для нейромереж. Чим менше об’єктів в кадрі, тим кращий фінальний результат.
  2. Image to Video, багато об’єктів. Тут нейромережі починають лагати сильніше і часто плутають якому об’єкту яку анімацію надати і з’являються різні артефакти та мутації частин тіла чи міміки.
  3. Image to Video, швидкий рух. Це найскладніші задачі, особливо анімація кінцівок ніг при ходьбі, або русі транспорту.
  4. Text to Video – коли генеруємо не з картинки, а з текстового промту. Цей метод корисний у випадках, коли потрібно створити складну анімацію руху з об’єктів які не присутні на картинці: політ з одного місця на інше, стрільба кулею яка ще не вилетіла, блискавки тощо.

Для зручності порівняння генерацій ми підігнали їх під формат Pika Art на 3 секунди. 

Що маємо в результаті:

Якщо не зважати на політики безпеки сервісів (жоден не згенерував ракету, яка влучає в будівлю), та не дивитись на анімацію бігу, то рейтинг якості наступний:

  1. Haiper AI на нашу думку видає найкращу якість, особливо там де потрібен певний рух і у випадках генерації з тексту. 4,5 балів з 5. Серед мінусів лише занадто низька контрастність відео, через що вони виглядають блідими. Haiper безсумнівний лідер по якості, доки не вийшла Sora.
  2. Stable Video справляється гірше за Haiper, але краще за Runway. Контрастність тут навпаки перебільшена. Реалістичних людей нейромережа анімує дуже погано, а неживі об’єкти навпаки краще за багатьох інших. Часто видає анімації цікавих прольотів камери. 3,5 з 5.
  3. Runway. Нейромережа найкраще за інших анімує фото людей, але в іншому розчарувала нас. На фоні перших двох гравців нейромережа видає неочікувано середній результат. На трієчку. Якщо використати motion brash якість дотягне і до 4,5 балів, але це призводить до сповільнення анімації. Тому Haiper тут виграє. Також, в Runway жорсткі вимоги до політики створюваного контенту, через що певний контент просто не анімується. Наприклад сцени з кров'ю або сцени, які можуть трактуватися, як еротика. Компанії потрібно вже випускати модель gen 3, бо розрив з іншими стає помітним.
  4. Pixverse. Щось середнє між Runway та Pika. Інколи генерації бувають краще ніж в Runway, але результати сильно не стабільні. Також, якщо не прописувати рух обʼєктів в кадрі, то нейромережа часто буде робити zoom in замість якоїсь цікавої анімації 2,5 з 5.
  5. Pika. Тут найгірша якість і стабільність. Від 1,5 бали з 5. 

Ефективність

Створити якісне відео буває не достатньо, коли ми говоримо про проєкт з великою кількістю відео сцен. Важливу роль відіграє те, наскільки отримане відео потрапляє в бриф. Погодьтесь, навіть якщо ви отримали супер якісну генерацію, але в ній людина сміється, замість стріляти з рушниці, це все одно промах і далі ви будете перегенеровувати все с початку. Так само, якщо ви робите велику кількість відео, але кожне нове відео ви отримаєте не за 40 секунд, а за 5+ хвилин – працювати з такою нейромережею ви скоріше за все не зможете. 

В наступному відео ми оглянули всі ці нюанси, а в таблиці проставили бали відповідно до того, що побачили. 

Результати наступні:

  1. Runway на першому місці. Головна фішка - точкова анімація через функціонал motion brush, що підіймає створення генерацій на новий рівень точності. Також в нейромережі найширші можливості налаштувань анімації, її сили та швидкості. З приємного – автоматичний апскейл роздільної здатності до 2816 × 1536.  Мінуси теж є – це середня швидкість генерацій. Також тільки в Runway можна спіймати тіньовий бан - якщо часто будете генерувати по 5 сцен підряд, то вас спочатку обмежать до 4-х, потім 3-х і так до 1-єї. 
  2. Pika. Нейромережа нас здивувала. На перший погляд, її функціонал не впадає в очі. Але якщо закопатись, то можна знайти й опції апскейлу (до 2560 × 1440), і можливість генерувати додаткові 4 секунди. Але найбільші переваги це швидкість генерації й можливість редагувати обрану ділянку на відео. Навіть в Runway інпейнтінг робиться окремою опцією. Також приємно вражає, що можна запустити нескінченну кількість паралельних генерацій. 
  3. Stable Video та Pixverse, в загальній кількості балів майже однакові. Тут скоріше потрібно говорити про мінуси, бо функціонали обмежені.  Найголовніший в Stable Video - низька роздільна здатність генерацій (1024 × 512) і відсутність паралельних генерацій відео. Мінуси Pixverse – одна з найповільніших генерацій і слабкі параметри налаштувань анімацій. Приємна опції – можливість апскейлити відео до розміру 4096 × 2304. 
  4. Haiper на жаль найгірша в плані зручності роботи. Єдине що ви можете обрати це генерувати відео у розмірі 1280 × 720 на 2 секунди чи 4. Сподіваємось найближчим часом розробники це допрацюють. 

Додаткові можливості.

Runway дозволяє генерувати текст, має інтерфейс для монтажу всіх відео, але найголовніша "кіллер фіча" функція Lip Sync, яка працює навіть краще за першопрохідника в особі Pika. Єдина перевага Pika, це можливість створювати звуки предметів, які відображається на відео. Інші нейромережі ніяких додаткових функцій не мають.

Ціна

Runway на перший погляд здається найдорожчою – максимальний план коштує 95 доларів. Проте цей план дає нескінченну кількість генерацій. Це дуже зручно, бо у будь-якому відео проєкті вам потрібно постійно генерувати різні варіації однієї і тієї ж сцени, щоб обрати найкращу. Ролик на 3,5 хвилини може потребувати створення близько 2 тис. генерацій.  У такому перерахунку Stable Video коштує від 5 до 7 разів дорожчі, бо придбати ви можете лише пакет за 50 доларів на 300 генерацій відео.  Runway також має пакети на 0, 15, та 15 доларів. 15 підійде для тестування, а на 35 вам не потрібен, краще придбати за 95. 

Pika працює по моделі – дивіться на нас, ми такі самі, як і Runway, проте трошечки дешевші, і ще є функція створення звуків. Також в неї є безкоштовний пакет з обмеженою кількістю генерацій на день. 

Pixverse та Haiper Ai мають серйозну перевагу на поточний момент, бо вони безкоштовні. А генерувати в них можна нескінченну кількість відео, так ще і паралельно одне одному. 

Висновки

Рейтинг виглядає ось так. Виходячи з таблиці постає питання, що ж тоді обрати?

Моя рекомендація наступна:

  1. В якості основної відео нейромережі обрати Runway максимальний план, якщо ви створюєте відео на постійній основі. Runway дозволить тонко налаштовувати силу анімацій, а якість генерацій з людьми буде найкраща. Ви зможете зручно створити більшу частину сцен вашого відео проєкту. Це ідеально підходить для рекламних роликів, де в центрі сюжету найчастіше жива людина. 
  2. Haiper AI взяти на озброєння для додаткових генерацій. Поки ви генеруєте відео в Runway запускайте паралельні генерації в Haiper AI, особливо якщо вам потрібні кадри з рухом. Так, нейромережа буде робити їх повільно, але з вискою ймовірністю ви щось таке гарне отримаєте. На поточний момент в проєктах моєї агенції New Strategies приблизно 20% сцен в АІ роликах вже створюється за допомогою Haiper AI. Після оновлення нейромережі і можливістю генерувати по 4 секунди, відсоток збільшиться. 
  3. Pika, цікава лише безкоштовним пакетом і опцією генерації звуків. Поки ви генеруєте відео в Runway, киньте ті ж самі фото на генерацію в Pika, а потім у програмі для монтажу залиште лише звуки. Вийде цікаво. 
  4. В Stable Video можна придбати пакет за 10 доларів, і заходити в нейромережу у випадках коли вам потрібні цікаві прольоти камери. На інше вона не потрібна. 
  5. Pixverse буде цікавою безкоштовним пакетом тим, хто не генерує ролики професійно. Тут ви можете відчути, що таке відео нейро генерації. Також інколи в неї можна зайти для створення відео з великою роздільною здатністю на крупні плани. 

Дякую за увагу. Підписуйтесь на мій телеграм про нейромережі Нейродива. 

1261