OpenAI запустила нову нейромережу, що здатна перетворювати аудіозапис в текст

October 4, 2022 •

713

251 followers

OpenAI представила нову нейронну мережу Whisper, яка допомагає перетворювати аудіо в письмовий текст. Система може автоматично розпізнавати, транскрибувати та перекладати інші мови.

Нейромережу навчали на основі 680 000 годин багатомовних і «багатозадачних» даних, зібраних з інтернету. Це призвело до покращеного розпізнавання унікальних акцентів, фонового шуму та технічного жаргону.

Утім, система Whisper має свої обмеження. Оскільки вона була навчена на великій кількості «зашумлених» аудіо, Whisper може включати у свої транскрипції слова, яких не називали. Це відбувається через те, що нейромережа одночасно намагається передбачити наступне слово в аудіо.

«Користуватися ним виявилося навіть простіше, ніж я собі уявляв. Протягом 15 хвилин я зміг за допомогою Whisper транскрибувати тестовий аудіокліп, який я записав. Для когось із технічними знаннями, які ще не налаштували Python, FFmpeg, Xcode та Homebrew, на це знадобиться близько години чи двох. Проте в компанії намагаються зробити процес набагато простішим і зручнішим для користувача» — коментують роботу нейромережі перші оглядачі з The Verge.

Whisper не перший продукт з подібними технологіями, але він значно випереджає конкурентів, адже є доступним та безплатним для використання.

Джерело: AIN