音樂生成 AI 的商業(yè)技術(shù)背景 + 使用教程
音樂人的噩夢最終還是來了,只需要輸入簡單的音樂感覺和風(fēng)格提示詞,Stable Audio就可以瞬間生成你需要的音樂,甚至是各種特殊音效。
自2021年橫空出世,Stability AI一直被視作人工智能行業(yè)的第一梯隊。他們最受歡迎的產(chǎn)品Stable Diffusion一直是Midjourney和 Dalle-2等其他圖像生成模型的競爭對手。
2023年9月發(fā)布的Stable Audio[https://stability.ai/stable-audio]標(biāo)志著Stability AI將觸手伸向音樂領(lǐng)域,其音質(zhì)似乎比同類文本音樂生成產(chǎn)品MusicGen和MusicLM高了一個臺階。數(shù)小時內(nèi),Stable Audio就獲得了諸如Billboard、TechCrunch、VentureBeat和the Verge等主流媒體的報道。不到24小時,圍觀人群使網(wǎng)站服務(wù)器也達到了運行極限,不過在作者碼字時,服務(wù)器已恢復(fù)正常運行。
Stable Audio的音樂生成模型使用的訓(xùn)練數(shù)據(jù)來自于制成音樂版權(quán)公司AudioSparx[http://www.audiosparx.com/]。Meta的同類產(chǎn)品MusicGen也是在與版權(quán)公司ShutterStock及其子公司Pond5達成協(xié)議后在其內(nèi)容上進行模型訓(xùn)練的。在這種情況下,如果音樂人不希望他們的作品被用于訓(xùn)練Stable Audio的人工智能模型,AudioSparx提供了選擇不參與的權(quán)利。 大約百分之10的音樂人選擇退出。那些選擇加入的人將從Stable Audio的收入中分得一部分。
請看Stable Audio生成音樂的介紹演示視頻:
那么Stable Audio音樂生成的效果到底如何呢,我們聽聽看。
下面這段音樂使用的提示詞是“氛圍Techno、冥想、斯堪的納維亞森林、808鼓機、808底鼓、拍手、沙筒、合成器、合成貝司、合成Drones、美麗、平和、空靈、自然、122拍每秒、器樂”(“Ambient Techno, meditation, Scandinavian Forest, 808 drum machine, 808 kick, claps, shaker, synthesizer, synth bass, Synth Drones, beautiful, peaceful, Ethereal, Natural, 122 BPM, Instrumental”)。
下面這段音樂的提示詞是“Trance、伊維薩島、海灘、太陽、凌晨 4 點、漸進、合成器、909、戲劇性和弦、合唱、欣快、懷舊、動態(tài)、流動”(“Trance, Ibiza, Beach, Sun, 4 AM, Progressive, Synthesizer, 909, Dramatic Chords, Choir, Euphoric, Nostalgic, Dynamic, Flowing”)。
Stable Audio不僅僅可以生成音樂,生成音效也不在話下。下面是兩段音頻,分別是汽車經(jīng)過的聲音和鼓獨奏的片段。
我們再聽一個。下面這組提示詞是““迪斯科、駕駛、鼓、機器、合成器、貝斯、鋼琴、吉他、器樂、夜店感、欣快、芝加哥、紐約、115拍每秒”(“Disco, Driving, Drum, Machine, Synthesizer, Bass, Piano, Guitars, Instrumental, Clubby, Euphoric, Chicago, New York, 115 BPM”)。
上面這個是Stable Audio的效果。為了對比,我們把同樣的提示詞扔到MusicLM的公測平臺AI Test Kitchen中。MusicLM的結(jié)果也不差,不過音樂上更加重復(fù)。
Stable Audio最引人注目的進展是它在90秒的長度上保持的連貫性。其他人工智能模型也能生成幾十秒的音樂,但通常在很短的時間(最多幾秒鐘)之后,它們就會演變成隨機的、不和諧的噪音。Stable Audio的秘密在于前面提到的隱藏空間擴散結(jié)構(gòu),這種技術(shù)類似于Stable Diffusion用來生成圖像的技術(shù)。Stable Audio的深度學(xué)習(xí)框架學(xué)習(xí)如何逐漸從幾乎完全由噪音組成的音頻中一步減去噪音,使其更接近文本描述。
Stable Audio并不是第一個基于擴散技術(shù)的音樂生成模型。2022年12月,我們報道了Riffusion,這是已知第一個對Stable Diffusion的音頻生成的嘗試,盡管在生成質(zhì)量上與Stable Audio相去甚遠。2023年1月,谷歌發(fā)布了MusicLM,其音頻采樣率為24kHz,F(xiàn)在,Stable Audio憑借44.1 kHz立體聲的音質(zhì)站到了領(lǐng)先位置。另外,Meta的MusicGen有更多功能,值得做一番比較。
Stable Audio和MusicGen都是人工智能文本控制音樂生成平臺,但MusicGen包含根據(jù)現(xiàn)有音頻進行可控生成和續(xù)寫功能。用戶可以將音頻文件上傳到MusicGen并通過提示詞進行生成修改。MusicGen的幾個應(yīng)用場景,包括視頻配樂、無限音樂生成以及音樂擴展。在這三者中,Stable Audio在可以配樂生成和無限音樂上競爭。不過根據(jù)已有音樂元素再加工是MusicGen獨有的功能。MusicGen沒有專用的用戶界面,不便小白用戶使用。體驗MusicGen通常是使用Hugging Face和Google Colab等服務(wù),根據(jù)使用的GPU數(shù)量按小時付費,當(dāng)然有條件也可以在本地運行?偠灾,Stable Audio是一個對普通用戶更友好的解決方案,但功能不及MusicGen。
上文提到過,AudioSparx提供了Stable Audio的訓(xùn)練數(shù)據(jù),總共超過80萬條音頻,其中包含音樂、音效和單樂器演奏,以及相應(yīng)的文本元數(shù)據(jù)和重要的文字描述。在將19500小時的音頻輸入模型完成訓(xùn)練之后,Stable Audio模型能夠模仿生成它在提示詞中對應(yīng)的某些聲音,因為這些聲音已與其神經(jīng)網(wǎng)絡(luò)中的文本描述相關(guān)聯(lián)。
Stable Audio包含多個協(xié)同工作的組件,其中一部分組件以保留其重要特征的方式壓縮音頻,同時消除不必要的噪音。這使得模型的訓(xùn)練速度更快,推理生成的速度也更快。另一部分組件使用對應(yīng)的文本來幫助指導(dǎo)生成音頻的類型。
為了加快速度,Stable Audio在高度簡化、壓縮的抽象音頻數(shù)據(jù)上運行以減少推理時間。根據(jù)Stability AI的說法,Stable Audio可以在Nvidia A100顯卡上以不到一秒的運算時間渲染生成95秒的44.1 kHz采樣率16位深立體聲音頻。雖然生成的音頻在位深度和采樣率這樣的技術(shù)格式方面符合CD規(guī)范,但這并不意味著Stable Audio生成的音樂的實際聽覺感知質(zhì)量達到相應(yīng)標(biāo)準(zhǔn),尤其是考慮到其算法中數(shù)據(jù)高度壓縮對音質(zhì)的影響。
Stable Audio目前提供免費版本和每月12美元的專業(yè)版。免費用戶每月最多可以生成 20首曲目,每首曲目的最大長度為20秒。專業(yè)用戶允許每月生成500首曲目,長度最長可達90 秒。專業(yè)版本允許用戶下載WAV文件并商用,而免費用戶不得將音樂用于商業(yè)場景。另外,Stable Audio對更大規(guī)模的企業(yè)有特殊要求,使用Stable Audio的商業(yè)產(chǎn)品月活用戶數(shù)超過10萬,則需要聯(lián)系協(xié)商Stability AI并獲取更高級的許可。
接下來,我們通過教程一起學(xué)習(xí)Stable Audio的使用方法和一些小竅門。教程中還將總結(jié)Stable Audio的服務(wù)條款,以便了解如何安全合規(guī)使用其音樂。
使用教程
首先請進入Stable Audio網(wǎng)站[https://www.stableaudio.com/]。一旦完成注冊并接受服務(wù)條款,你將到達如下界面。
Stable Audio界面的左上邊包含文本區(qū)域,你可以在其中輸入音樂提示詞。它還提供輸出音樂時長的控制。每次提交文本提示時,左下角容器中都會出現(xiàn)一個新的列表項。同時,界面的右半部分顯示播放控件,并讓你可以選擇下載曲目或?qū)ζ滟|(zhì)量進行投票。
現(xiàn)在,我們面臨的問題是到底該在這個東西里寫點什么。
Stable Audio的模型在 AudioSparx 上進行訓(xùn)練,所以當(dāng)你使用與該數(shù)據(jù)集一致的詞匯時,該模型的性能最佳。要找到訓(xùn)練數(shù)據(jù)中對應(yīng)的文本,我們來到AudioSparx網(wǎng)站[http://www.audiosparx.com/]。
每個最高級別的音樂流派都鏈接到一個單獨的頁面,我們可以在其中找到相關(guān)子流派的列表。在下面的示例中,我們選擇了電子音樂,并正在查看按字母順序列出的前幾個子流派。 每個集合中的曲目數(shù)量顯示在標(biāo)簽的左側(cè)。 具有更多曲目的子流派可能會為Stable Audio帶來更豐富、更多樣化的想法,以便在生成音樂時可以借鑒。單擊子流派可查看其包含的完整音頻文件集合。在每首曲目的標(biāo)題下,您都會找到豐富的文本說明。嘗試將描述性文本直接復(fù)制并粘貼到示例音頻的提示字段中,看看會發(fā)生什么。調(diào)整文本并迭代多輪,直到您對其創(chuàng)建的音樂感到滿意為止。
使用包含音樂家姓名的描述時請務(wù)必小心。上圖第三個示例的文字中包含Aphex Twin、Radiohead等名字。在后文中會講到,Stable Audio的服務(wù)條款禁止濫用知識產(chǎn)權(quán)。我沒有看到任何具體說明用戶不能在提示詞中提交音樂家姓名,但從字里行間看出,這是最明顯的解釋。這么理解吧,只要是為了自己的實驗娛樂,你可以安全地嘗試音樂家的名字。出于道德和法律原因,最好避免將以音樂家名字作為提示詞生成的音樂用于商業(yè)用途。
Stability AI的研究科學(xué)家Jordi Pons本月發(fā)表了一篇文章[http://www.jordipons.me/on-prompting-stable-audio/],其中提供了一些Stable Audio使用的好技巧。下面就是對這些技巧的簡單總結(jié)這些技術(shù)。
音樂提示詞技巧#1:提供音樂屬性列表
最簡單的辦法是從流派、樂器、情緒和節(jié)奏等描述詞開始。
示例:低保真嘻哈、鋼琴、貝斯、鼓、放松、90拍每秒(Lo-fi hip hop, piano, bass, drums, relaxing, chill, 90 BPM)。
音樂提示技巧#2:結(jié)合音樂和非音樂性描述
嘗試添加非音樂性描述詞,看看它如何融入音樂的感覺中。
例如:海島歌曲、馬林巴琴、站在海上、腳下有沙子、聆聽海浪聲、棕櫚樹在微風(fēng)中搖曳的輕松體驗 (Island song, marimba, the relaxing experience of standing on the ocean with sand beneath your feet, listening to the waves while palm trees sway in the breeze)。
完善提示詞
如果你發(fā)現(xiàn)音樂輸出聽起來太數(shù)字化或電子化,Jordi建議在提示中添加“現(xiàn)場(Live)”或“樂隊(Band)”等關(guān)鍵字。你可以通過輸入“立體聲(stereo)”、“高質(zhì)量(high-quality)”和“44.1kHz”來提高音頻質(zhì)量。為了給旋律增添趣味,可以試試在曲目主樂器名稱后添加“獨奏(Solo)”一詞進行配對。這些是文本提示的基本原則,但總有進一步實驗的空間。 在下一節(jié)中,我們將分享一個新穎的示例。
Dadabots的CJ Carr多年來一直是Harmonai團隊的一員,在音頻合成方法上有些獨特的見解。
上面的視頻里CJ Carr演示了他的音樂流派融合技術(shù)。當(dāng)你將兩種不太可能的流派混在一起時會發(fā)生什么? 我們能否創(chuàng)造出世界上從未聽過的全新音樂風(fēng)格?
音樂流派融合提示詞格式
此演示中的提示格式結(jié)合了兩個短語,每個短語都以“Subgenre:”為前綴,并用豎線符號 (|) 分隔。
實驗思路:嘗試輸入兩種節(jié)奏相反的風(fēng)格,例如“Subgenre:Breakbeat|Subgenre: Lo-fi Hip Hop”,或者牛頭不對馬嘴的兩個流派,例如“Subgenre: Death Metal|Subgenre: New Age Relaxation”。在歷史上的任何其他時期,像這樣的流派融合都會被困在一種未被實踐產(chǎn)生的潛在空間中。但現(xiàn)在,通過一些文本和一段時間的渲染,Stable Audio為我們完成了繁重的工作,并提供了新的創(chuàng)作想法。
流派扭曲是比我所說的音樂家混合更安全的替代方案。提示可以將“artist”一詞替換為“subgenre”,并創(chuàng)建多個音樂家的混合體。但正如之前提到的,一旦我們開始將個別音樂家的品牌注入我們的提示中,我們就進入了法律的灰色地帶。讓我們仔細看看服務(wù)條款。
當(dāng)我們注冊新應(yīng)用程序時,大多數(shù)人都會直接跳過條款和服務(wù)協(xié)議。但當(dāng)談到人工智能音樂生成時,對它們的條款有基本的認識是很重要的。以下是有關(guān)Stable Audio服務(wù)條款的一些最重要的信息:
- 音樂是你的:依照相關(guān)條款和法律,用戶擁有他們生成的內(nèi)容。
- 請勿使用穩(wěn)定音頻訓(xùn)練其他人工智能模型:禁止用戶使用該服務(wù)或其生成的內(nèi)容來訓(xùn)練其他人工智能模型。
- 尊重藝術(shù)家IP:用戶不得侵犯知識產(chǎn)權(quán)。
- 如果你被起訴,你需要支付法律費用:用戶應(yīng)賠償Stability因知識產(chǎn)權(quán)侵權(quán)、濫用服務(wù)或違反條款而引起的索賠。 Stability及其代表對間接、特殊或后果性損害或損失不承擔(dān)責(zé)任。
衍生閱讀:Stable Audio誕生背后的故事
對于任何關(guān)注人工智能音樂領(lǐng)域的人來說,Stable Audio的產(chǎn)品負責(zé)人都是一個熟悉的名字。Ed Newton-Rex是Jukedeck的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,Jukedeck是最早的人工智能音樂初創(chuàng)公司之一,該公司于 2019 年被字節(jié)跳動收購。2021年離開字節(jié)跳動后,Newton-Rex在Snap旗下的音樂創(chuàng)作應(yīng)用Voisey擔(dān)任首席產(chǎn)品官一段時間。 隨后,他于2022年11月加入 Stability AI,最初擔(dān)任其專注于音樂的Harmonai項目的產(chǎn)品副總裁。今年2月,Newton-Rex調(diào)任音頻副總裁,負責(zé)Stable Audio方面的工作。
一年前,總部位于倫敦的初創(chuàng)公司Stability AI悄悄發(fā)布了Dance Diffusion,該模型可以根據(jù)有關(guān)歌曲和音效的文本描述生成歌曲和音效。Dance Diffusion是Stability AI首次涉足生成音頻領(lǐng)域,它標(biāo)志著該公司對AI音樂創(chuàng)作工具這一新興領(lǐng)域的投資和興趣。 但在Dance Diffusion宣布近一年后,生成音頻領(lǐng)域似乎一切都很平靜——至少就Stability的努力而言是這樣。
Stability資助創(chuàng)建該模型的研究組織Harmonai去年某個時候停止了Dance Diffusion的更新。從歷史上看,Stability向外部團體提供資源和計算,而不是完全在內(nèi)部進行研發(fā)。Dance Diffusion從未獲得過面向用戶的版本發(fā)布。即使在今天,安裝Dance Diffusion也需要直接使用源代碼,因為它根本沒有用戶界面。Stable Audio不是由單獨開發(fā)Harmonai開發(fā)的。Stability 的音頻團隊于2023年4月正式成立,他們創(chuàng)建了一個受Dance Diffusion 啟發(fā)的新模型來支持Stable Audio。
現(xiàn)在,在投資者要求將超過1億美元的投入轉(zhuǎn)化為創(chuàng)收產(chǎn)品的壓力下,Stability AI重新大力投入音頻領(lǐng)域。Stability AI聲稱該工具是第一個能夠通過擴散模型技術(shù)生成用于商業(yè)用途的“高質(zhì)量”44.1 kHz音樂的工具。Stability AI表示,經(jīng)過音頻元數(shù)據(jù)以及音頻文件的持續(xù)時間和開始時間的訓(xùn)練,Audio Diffusion的底層大約12 億個參數(shù)模型比之前發(fā)布的生成音樂工具能夠更好地控制合成音頻的內(nèi)容和長度。Stability AI音頻副總裁 Ed Newton-Rex在接受 TechCrunch電郵采訪時表示:“Stability AI的使命是通過跨內(nèi)容類型或模式構(gòu)建人工智能模型來釋放人類潛力。從Stable Diffusion開始,現(xiàn)已發(fā)展到包括語言、代碼和現(xiàn)在的音樂。Stability AI相信生成人工智能的未來是多模態(tài)的。”
至少目前,也許從今以后,Stable Audio只能通過網(wǎng)頁使用。Stability AI尚未正式宣布以開源方式發(fā)布Stable Audio背后模型的計劃,此舉肯定會惹惱其開放研究使命的支持者。
據(jù) Newton-Rex稱,他們采取了一些措施來過濾訓(xùn)練數(shù)據(jù),大概是為了解決深度偽造聲音潛在的道德和版權(quán)問題有點令人驚訝的是,Stability AI并沒有過濾掉可能使其成為法律瞄準(zhǔn)目標(biāo)的提示。 如果輸入“按照 Barry Manilow的風(fēng)格”之類的內(nèi)容,像 Google MusicLM這樣的工具會拋出錯誤消息,但 Stable Audio不會——至少現(xiàn)在不會。當(dāng)被問及是否有人可以使用Stable Audio來生成 Harry Styles或 The Eagles等樂隊風(fēng)格的歌曲時,Newton-Rex表示,該工具受到訓(xùn)練數(shù)據(jù)中音樂的限制,其中不包括一線藝人的音樂標(biāo)簽。也許是這樣。但粗略搜索AudioSparx的庫會發(fā)現(xiàn)數(shù)千首歌曲本來就是模仿披頭士樂隊、AC/DC等音樂“風(fēng)格”的。
Newton-Rex說:
“Stable Audio的主要是為了生成器樂,因此信息造假和聲音深度偽造不太可能成為問題,不過,我們正在積極努力應(yīng)對人工智能中出現(xiàn)的風(fēng)險,方法是在我們的模型中實施內(nèi)容真實性驗證標(biāo)準(zhǔn)和水印,以便用戶和平臺可以識別通過我們的托管服務(wù)生成的人工智能輔助內(nèi)容。”
Stability與AudioSparx 的協(xié)議涵蓋兩家公司之間的收入分享,但Stability并未透露該交易的細節(jié),也沒有透露音樂人的貢獻預(yù)計將獲得多少報酬。鑒于Stability首席執(zhí)行官埃馬德·莫斯塔克 (Emad Mostaque) 的行為道德問題[https://www.pingwest.com/a/285687],音樂人有理由保持警惕。
- 參考原文鏈接1:https://www.audiocipher.com/post/stable-audio-ai
- 參考原文鏈接2:https://techcrunch.com/2023/09/13/stability-ai-gunning-for-a-hit-launches-an-ai-powered-music-generator/
- 參考原文鏈接3:https://arstechnica.com/information-technology/2023/09/ai-can-now-generate-cd-quality-music-from-text-and-its-only-getting-better/
- 參考原文鏈接4:https://musically.com/2023/09/13/stable-diffusion-maker-launches-stable-audio-text-to-music-ai/
【打印此頁】【返回首頁】 |