На ежегодной конференции Max компания Adobe представила экспериментальный проект Super Sonic — прототип программного обеспечения на базе ИИ, который способен преобразовывать текст в аудио, распознавать объекты и голос автора для быстрого создания звуковых эффектов и фонового аудио для видеопроектов.
Источник изображения: Adobe
«Наша цель заключалась в том, чтобы предоставить пользователям контроль над процессом, […] выйти за рамки базового рабочего процесса преобразования текста в звук. Поэтому мы разработали аудиоприложение, которое действительно предоставляет точный контроль над энергией и синхронизацией, превращая его в выразительный инструмент», — поделился руководитель отдела ИИ Adobe Джастин Саламон (Justin Salamon).
Super Sonic применяет ИИ для распознавания объектов в любом кадре видеоряда, чтобы формировать запрос и генерировать необходимый звук. В другом режиме инструмент анализирует различные характеристики голоса и звукового спектра, используя эти данные для управления процессом генерации. Пользователи могут не только использовать голос; можно хлопать в ладоши, играть на музыкальных инструментах или извлекать звуки любым доступным способом.
Следует отметить, что на конференции Max Adobe традиционно представляет ряд экспериментальных функций. В будущем многие из них входят в состав Adobe Creative Suite. Super Sonic может стать полезным дополнением, например, к Adobe Premiere, но пока дальнейшие планы по проекту остаются неясными, и он продолжает находиться в статусе демонстрационной версии.
Ранее разработчики Super Sonic принимали участие в создании функции генеративного ИИ Firefly под названием Generative Extend, которая позволяла удлинять короткие видеоклипы на несколько секунд, включая звуковую дорожку.
Возможность генерировать звуковые эффекты на основе текстового запроса или голоса — полезная функция, но не является новаторской. Многие компании, такие как ElevenLabs, уже предлагают аналогичные коммерческие инструменты.