將 AI 繪圖的技術應用于音樂會如何?
AI 繪圖 Stable Diffusion 著實是火了一把,只需要提供所需要的提示詞,它就可以生成近似的圖片。最近,這種技術也應用在了音樂生成領域 — Riffusion 是一款新的 AI 項目,它建立在最近興起的AI繪圖的基礎上,但將其應用于聲音。
Stable Diffusion 通過從隨機噪點開始,并將隨機圖像與與提示詞匹配的圖像索引進行比較來實現(xiàn)圖片的生成。應用程序選擇其索引中與提示詞匹配或接近的圖像質量最接近的圖像,然后重復此過程。每次迭代時,圖像的質量越來越接近具有所需標簽或文本提示的圖像。
Riffusion的工作方式是首先構建一個索引的頻譜圖集合,每個頻譜圖都標有代表頻譜圖中捕獲的音樂風格的關鍵字。一旦在此頻譜圖主體上進行訓練,該模型就可以使用與 Stable Diffusion 相同的方法,干預噪聲以獲得與文本提示匹配的聲波圖具有相似質量的聲波圖像。
如果你的需求是 “搖擺小號爵士”,它將生成一個類似于與提示詞相匹配的聲波圖。然后,應用程序將超聲波圖轉換為音頻,這樣你就可以聽到結果。
目前 Riffusion 得出的結果還很粗糙,但它確實證實了該過程確實能夠產(chǎn)生與文本提示匹配的原始音頻。目前該技術主要受限于聲波圖樣本的數(shù)量較小,而用于圖像的 Stable Diffusion 可是使用了 2.3 億個圖像進行訓練。不只是數(shù)量,Riffusion 還會受到頻譜圖分辨率的限制,頻譜圖只能產(chǎn)生比較低保真的音頻質量。
目前來看,該技術還無法在不久的將來使用人工智能產(chǎn)生任何傳統(tǒng)音樂,因為這個過程沒有考慮形式。音樂是聲音的想法,可以及時組織以創(chuàng)造出的藝術結果。
不過,這種方法顯示了 AI 的潛力。目前,它的任務是生成令人不安的樣本素材 — 類似于 AI 圖像生成的方式,即使在 6 個月前,也僅限于生成令人毛骨悚然的圖像。這表明,憑借更大的數(shù)量和更高分辨率的頻譜圖,人工智能音頻生成可能會在明年實現(xiàn)類似的質量飛躍。
剛興趣的朋友可以去官網(wǎng)聽聽它生成的樣本:https://www.riffusion.com/
錄音棚設備解決方案 售前咨詢:13366394396
【打印此頁】【返回首頁】 |