OpenAI запустила нову нейромережу, що здатна перетворювати аудіозапис в текст
OpenAI представила нову нейронну мережу Whisper, яка допомагає перетворювати аудіо в письмовий текст. Система може автоматично розпізнавати, транскрибувати та перекладати інші мови.
Нейромережу навчали на основі 680 000 годин багатомовних і «багатозадачних» даних, зібраних з інтернету. Це призвело до покращеного розпізнавання унікальних акцентів, фонового шуму та технічного жаргону.
Утім, система Whisper має свої обмеження. Оскільки вона була навчена на великій кількості «зашумлених» аудіо, Whisper може включати у свої транскрипції слова, яких не називали. Це відбувається через те, що нейромережа одночасно намагається передбачити наступне слово в аудіо.
«Користуватися ним виявилося навіть простіше, ніж я собі уявляв. Протягом 15 хвилин я зміг за допомогою Whisper транскрибувати тестовий аудіокліп, який я записав. Для когось із технічними знаннями, які ще не налаштували Python, FFmpeg, Xcode та Homebrew, на це знадобиться близько години чи двох. Проте в компанії намагаються зробити процес набагато простішим і зручнішим для користувача» — коментують роботу нейромережі перші оглядачі з The Verge.
Whisper не перший продукт з подібними технологіями, але він значно випереджає конкурентів, адже є доступним та безплатним для використання.
Джерело: AIN