Stability AI telah memperkenalkan “Stable Audio,” model difusi laten yang dirancang untuk merevolusi generasi audio.
Terobosan ini menjanjikan lompatan maju bagi AI generatif dan menggabungkan metadata teks, durasi audio, dan pengondisian waktu mulai untuk menawarkan kontrol yang belum pernah ada sebelumnya terhadap konten dan panjang audio yang dihasilkan—bahkan memungkinkan pembuatan lagu lengkap.
Model difusi audio secara tradisional menghadapi keterbatasan yang signifikan dalam menghasilkan audio dengan durasi tetap, yang sering kali menghasilkan frasa musik yang tiba-tiba dan tidak lengkap. Hal ini terutama disebabkan oleh model yang dilatih pada potongan audio acak yang dipotong dari file yang lebih panjang dan kemudian dipaksa menjadi panjang yang telah ditentukan.
Audio Stabil secara efektif mengatasi tantangan bersejarah ini, memungkinkan pembuatan audio dengan panjang tertentu, hingga ukuran jendela pelatihan.
Salah satu fitur menonjol dari Stable Audio adalah penggunaan representasi audio laten yang banyak diturunkan sampelnya, sehingga menghasilkan waktu inferensi yang jauh lebih cepat dibandingkan dengan audio mentah. Melalui teknik pengambilan sampel difusi yang mutakhir, model Stable Audio andalan dapat menghasilkan audio stereo berdurasi 95 detik pada kecepatan sampel 44,1 kHz dalam waktu kurang dari satu detik dengan memanfaatkan kekuatan GPU NVIDIA A100.