Stable Audio 2.0 來襲
2023年9月發(fā)布的Stable Audio 1.0憑借其根據(jù)文本描述生成簡短音頻的能力而引起了人們的關注。最新發(fā)布的2.0版本允許用戶以44.1 kHz采樣率生成長達三分鐘的立體聲完整歌曲,超過了過去1.0版本90秒的限制。除了增加長度之外,Stable Audio 2.0還提供其他功能,包括新的“音頻到音頻”功能,允許用戶上傳已有的音樂或者直接哼唱來影響生成的音樂特征。
2023年9月發(fā)布的Stable Audio 1.0(新聞請參考《深入揭發(fā)音樂人的噩夢 Stable Audio:音樂生成 AI 的商業(yè)技術(shù)背景 + 使用教程》)憑借其根據(jù)文本描述生成簡短音頻的能力而引起了人們的關注。最新發(fā)布的2.0版本[https://stableaudio.com/user-guide/model-2]允許用戶以44.1 kHz采樣率生成長達三分鐘的立體聲完整歌曲,超過了過去1.0版本90秒的限制。除了增加長度之外,Stable Audio 2.0還提供其他功能,包括新的“音頻到音頻”功能,允許用戶上傳已有的音樂或者直接哼唱來影響生成的音樂特征。
https://www.youtube.com/watch?v=cljN977HNTI
視頻中展示了Stable Audio可以將用戶輸入音頻和提示詞進行結(jié)合,并輸出與兩者都有關聯(lián)的音樂。輸入音頻可以是哼唱,也可以是簡單的樂器演奏。除此之外,用戶還可以通過Prompt strength來調(diào)節(jié)輸入音頻和提示詞對結(jié)果的影響權(quán)重。在展示視頻中,合成器貝斯被轉(zhuǎn)換為低音吉他,一段哼唱轉(zhuǎn)換成鼓的音高和節(jié)奏,Beatbox變成了嘻哈beat。不過小編簡單嘗試了這個功能后發(fā)現(xiàn)生成結(jié)果與輸入音頻關系不太大,服務器也不太穩(wěn)定。更多關于音頻到音頻生成的官方音頻示例可訪問:https://stableaudio.com/user-guide/audio-to-audio。Stable Audio 2.0還表示新版本加入了諸如風格轉(zhuǎn)換之類的功能,不過在官方指南內(nèi)沒有找到更詳細的信息,有可能指的就是音頻文本提示詞生成的變體。
圖2:Diffusion Transformer (DiT)
根據(jù)官網(wǎng)介紹,Stable Audio 2.0的隱含擴散(Latent Diffusion)模型架構(gòu)經(jīng)過專門設計,能夠生成具有連貫結(jié)構(gòu)的完整音軌。為了實現(xiàn)這一目標,團隊對系統(tǒng)的所有組件進行了調(diào)整,以提高長時內(nèi)容生成的性能。一種全新的高度壓縮的自動編碼器(Auto-Encoder)將原始音頻波形壓縮為更短的表示形式。擴散模型采用類似于Stable Diffusion 3中使用的diffusion transformer(DiT)來代替之前的U-Net,因為它更擅長處理長序列的數(shù)據(jù)。 這兩個元素的結(jié)合產(chǎn)生了一個能夠識別和再現(xiàn)高質(zhì)量音樂作品所必需的大模型結(jié)構(gòu)。
新模型可在 Stable Audio 網(wǎng)站上免費使用,并將很快提供Stable Audio 2.0 API。Stability AI還推出了Stable Radio[https://stableaudio.com/live],一個全天候直播Stable Audio生成曲目的YouTube推流。
Stable Audio 2.0的發(fā)布正值Stability AI內(nèi)部動蕩。公司劣跡斑斑的前CEO Emad Mostaque于3月23日被迫辭職。2023年11月,該公司前音頻副總裁Ed Newton-Rex因在訓練數(shù)據(jù)集中使用受版權(quán)保護的材料存在分歧而選擇離職抗議。該起事件詳情請見midifan報道番外篇“訓練數(shù)據(jù)侵權(quán),Stable Audio研發(fā)主管辭職抗議”(參考新聞《風格遷移 AI 效果器 Comboulator 發(fā)布,另有一波 Google 和 Adobe 音樂 AI 新品襲來》)。Ed Newton-Rex之后發(fā)起了一項名為Fairly Trained[https://www.fairlytrained.org/],旨在對基于尊重創(chuàng)作者權(quán)利的人工智能模型的評估和認證。
Stability AI如今聲稱解決了人工智能開發(fā)的版權(quán)問題,表示:
“Stable Audio 2.0專門在AudioSparx音樂庫[https://www.audiosparx.com/]許可數(shù)據(jù)集上進行了訓練,尊重選擇退出訓練計劃的音樂家并確保創(chuàng)作者得到公平的補償。”
這個說法與去年Stable Audio 1.0發(fā)布時的說辭(參考新聞《深入揭發(fā)音樂人的噩夢 Stable Audio:音樂生成 AI 的商業(yè)技術(shù)背景 + 使用教程》)如出一轍,很難不讓人再對其產(chǎn)生懷疑。
根據(jù)過往資料,模型的訓練使用了AudioSparx中超過80萬段音頻,其中包含音樂、音效和單樂器軌道以及相應的文本數(shù)據(jù)。Stability AI表示本次2.0版本集成了來自Audible Magic[https://www.audiblemagic.com/]的內(nèi)容識別技術(shù)來掃描用戶上傳的音頻是否侵犯版權(quán),卻并未提到有檢查其訓練數(shù)據(jù)的侵權(quán)情況。
雖然 Stability AI拒絕對Ed Newton-Rex的聲明發(fā)表評論,但他們重申:
“Stable Audio模型僅根據(jù)AudioSparx合作伙伴的數(shù)據(jù)進行訓練。AudioSparx的所有藝術(shù)家都獲得了補償,并且可以選擇退出模型訓練計劃”。關于Stable Audio等工具的技術(shù)不斷進步是否有潛力影響職業(yè)音樂家的生計,Stability AI回應稱他們的使命是放大人類的潛力,其中包括藝術(shù)家。“我們的目標是利用我們的尖端技術(shù)擴展藝術(shù)家的創(chuàng)意工具包,從而提高他們的創(chuàng)造力。”
近幾個月來,人工智能驅(qū)動的生成音樂工具受到批評,因為藝術(shù)家和唱片公司開始質(zhì)疑它們不受控制的發(fā)展未來可能會引導我們走向何方。就在本周,包括Billie Eilish和Stevie Wonder在內(nèi)的200名藝術(shù)家簽署了一封公開信,要求遏制“人工智能的掠奪性使用”。
番外:Billie Eilish、Nicki Minaj、Stevie Wonder等音樂家要求保護免遭人工智能侵害
由200多名知名音樂家組成的團體簽署了一封公開信,呼吁保護人們免遭模仿人類肖像和聲音的人工智能掠奪性影響。簽名者跨越音樂流派和時代,包括從Billie Eilish、J Balvin、Nicki Minaj這樣的一線明星到Stevie Wonder和REM等搖滾名人堂成員。弗蘭克·辛納屈 (Frank Sinatra)和鮑勃·馬利 (Bob Marley) 的遺產(chǎn)管理機構(gòu)也是簽署人。
這封信由藝術(shù)家權(quán)利聯(lián)盟Artist Rights Alliance[https://artistrightsalliance.org]發(fā)出,要求科技公司承諾不開發(fā)破壞或取代人類歌曲作者和藝術(shù)家的人工智能工具。信中指出:
“這種對人類創(chuàng)造力的攻擊必須停止。 我們必須防止人工智能被掠奪性地用來竊取專業(yè)藝術(shù)家的聲音和肖像、侵犯創(chuàng)作者的權(quán)利并破壞音樂生態(tài)系統(tǒng),”
這封信并未呼吁徹底禁止在音樂或制作中使用人工智能,而是表示負責任地使用該技術(shù)可能會給該行業(yè)帶來好處。對人工智能被用來寫歌曲和劇本,或者制作演員和藝人的圖像和視頻的擔憂,是2023年美國娛樂業(yè)工會罷工的核心。就在上周,出于對負責任使用的擔憂,ChatGPT制造商OpenAI推遲了一款可以模仿聲音的程序的發(fā)布。
2024年3月,田納西州成為美國第一個頒布立法的州,旨在保護音樂家免于將人工智能生成的相似聲音用于商業(yè)目的!缎は、聲音和圖像安全法案》(The Ensuring Likeness, Voice, and Image Security Act,又稱《貓王法案》Elvis Act)將于同年7月1日生效,規(guī)定未經(jīng)藝術(shù)家同意復制其聲音為違法行為。該立法并未涉及將藝術(shù)家的作品用作訓練人工智能模型的數(shù)據(jù),而這種做法已導致針對OpenAI等公司的多起訴訟,信中也提到了這一點。
信中還指出:
“一些最大、最有實力的公司未經(jīng)許可,使用藝術(shù)家的工作來訓練人工智能模型。其直接目的是用大量人工智能創(chuàng)造的‘聲音’和‘圖像’取代人類藝術(shù)家的作品,從而大大稀釋支付給藝術(shù)家的版稅。”
藝術(shù)家權(quán)利聯(lián)盟是一個由音樂行業(yè)資深人士運營的非營利組織,董事會成員包括Johnny Cash的女兒Rosanne Cash。目前還不清楚該組織是如何聯(lián)系到在這封信上簽名的藝術(shù)家的。除前文中提到的署名者,名單還包括Camila Cabello, Katy Perry, Kim Petras, Pearl Jam, Kacey Musgraves, Ayra Starr, Chuck D, Elvis Costello, Imagine Dragons, Jon Bon Jovi, Q-Tip, The Cure’s Robert Smith, Ryan Tedder, Sheryl Crow, Sam Smith, Smokey Robinson, Miranda Lambert, The Last Dinner Part, Chappell Roany等知名藝人。完整名單請訪問鏈接[https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb109bbac]。代表已故藝術(shù)家的遺產(chǎn)機構(gòu)也是這封信的簽署者之一。娛樂行業(yè)內(nèi)關于藝術(shù)家死后如何使用他們的肖像的爭論越來越多。近年來,已故演員和音樂家的多個人工智能版本出現(xiàn)在電影、視頻游戲和電視中,引發(fā)了爭議和倫理辯論。
參考鏈接:
【打印此頁】【返回首頁】 |