У відповідь Metа: Google представив власну нейромережу для створення відео з тексту
Компанія Google розробила власну нейромережу Imagen Video, що здатна створювати відео за словесними запитами. Декілька днів тому подібну технологію представили в Meta.

Imagen Video може генерувати відео з роздільною здатністю 1280 768 пікселів і частотою 24 кадри на секунду. В основі інструменту — алгоритм Imagen, що є аналогом DALL-E 2 та Stable Diffusion. Генератор зображень використовує велику передбачену мовну нейромережу та каскадну дифузну модель.
Як пояснюють у Google, Imagen Video бере текстовий опис і створює 16-кадровий ролик із роздільною здатністю 24х48 пікселів і частотою 3 FPS. Потім система масштабує та передбачає додаткові зображення. В результаті алгоритм генерує 128-кадрову анімацію з роздільною здатністю 1280×768 пікселів та частотою 24 FPS.
ШІ від Google, у порівнянні з іншими подібними нейромережами набагато краще відтворює текст. У той час як і Stable Diffusion, і DALL-E 2 важко перекладають підказки на зразок «логотип для Diffusion» у читабельний шрифт, Imagen Video відтворює це без проблем.
Втім, як і в продукті від Meta, згенеровані штучним інтелектом відео виглядають місцями спотворено, тож компанія продовжить свою роботу над розвитком технології.
Джерело: Speka. Media