MusicGen 是如何通過(guò)參考旋律生成音樂(lè)的?
2023年6月13日,Meta(前身為 Facebook)發(fā)布了生成音樂(lè)模型 MusicGen,在音樂(lè)和人工智能社區(qū)引起了轟動(dòng)。
Meta發(fā)布MusicGen
2023年6月13日,Meta(前身為 Facebook)發(fā)布了生成音樂(lè)模型 MusicGen,在音樂(lè)和人工智能社區(qū)引起了轟動(dòng)。 該模型不僅在某些方面超越了今年早些時(shí)候谷歌推出的MusicLM,而且利用的是授權(quán)音樂(lè)數(shù)據(jù)進(jìn)行訓(xùn)練,并且開源給非商業(yè)用途。現(xiàn)在不僅可以閱讀研究論文[https://arxiv.org/abs/2306.05284]或試聽[https://ai.honu.io/papers/musicgen/],還可以直接從GitHub [https://github.com/facebookresearch/audiocraft] 或在HuggingFace [https://huggingface.co/spaces/facebook/MusicGen]上的在線應(yīng)用程序中體驗(yàn)該模型。
除了根據(jù)文本描述生成音頻之外,MusicGen還可以根據(jù)給定的參考旋律生成音樂(lè),這一功能稱為旋律條件限制生成。 這篇文章將演示Meta如何在他們的模型中實(shí)現(xiàn)這一有用且令人著迷的功能。在深入研究之前,讓我們首先了解旋律條件限制生成的原理。
音樂(lè)效果如何?
雖然在測(cè)試中MusicGen并沒有嚴(yán)格遵循文本提示的要求,并且創(chuàng)作的音樂(lè)與要求的略有不同,但生成的作品仍然準(zhǔn)確地反映了所要求的音樂(lè)流派。更重要的是,每首作品都展示了自己對(duì)主旋律的不同詮釋。雖然結(jié)果并不完美,但是該模型的功能令人印象深刻。 自發(fā)布以來(lái),MusicGen一直是HuggingFace上最受歡迎的模型之一。
如何訓(xùn)練文本到音樂(lè)模型
圖 2:訓(xùn)練MusicLM或MusicGen等模型時(shí)運(yùn)用的三個(gè)文本和音樂(lè)例子。
幾乎當(dāng)前所有的音頻式音樂(lè)生成模型在訓(xùn)練過(guò)程中都遵循相同的邏輯,依靠一個(gè)附有相應(yīng)文本描述的大型音樂(lè)數(shù)據(jù)庫(kù)。 該模型學(xué)習(xí)文本和聲音之間的關(guān)系,并從中得到將給定的文本提示轉(zhuǎn)換為音樂(lè)片段的能力。 在訓(xùn)練過(guò)程中,模型通過(guò)將其生成的內(nèi)容與數(shù)據(jù)集的真實(shí)音樂(lè)曲目進(jìn)行比較來(lái)優(yōu)化迭代,這使得深度學(xué)習(xí)模型能夠識(shí)別其當(dāng)前生成音樂(lè)的優(yōu)劣并不斷提升。
這種方法的局限在于一旦模型針對(duì)文本到音樂(lè)生成這樣的特定任務(wù)進(jìn)行訓(xùn)練,它就只能執(zhí)行該任務(wù)。 雖然可以試圖讓MusicGen執(zhí)行如音樂(lè)續(xù)寫這樣未經(jīng)過(guò)明確訓(xùn)練的任務(wù),但不能每個(gè)請(qǐng)求都能完成。 MusicGen不能輕易地把一條旋律變?yōu)椴煌牧髋伞?這就像將土豆扔進(jìn)烤面包機(jī)并期待炸薯?xiàng)l出來(lái)一樣。 為了實(shí)現(xiàn)各種需求,我們必須訓(xùn)練一個(gè)單獨(dú)的模型來(lái)實(shí)現(xiàn)此功能。
訓(xùn)練配方的小改進(jìn)
讓MusicGen能夠根據(jù)文本提示生成旋律變奏存在一些挑戰(zhàn)。主要障礙之一是識(shí)別歌曲的“旋律”并以計(jì)算機(jī)接受的方式表示。這個(gè)問(wèn)題會(huì)在之后深入探討。目前,為了理解新的訓(xùn)練過(guò)程,我們先假設(shè)對(duì)“旋律”的概念達(dá)成共識(shí)。在這種情況下,調(diào)整后的訓(xùn)練方法可以概述如下:
圖 3:三個(gè)文本-音樂(lè)-旋律配對(duì)以用于MusicGen旋律條件限制生成。
對(duì)于數(shù)據(jù)庫(kù)中的每個(gè)曲目,第一步是提取其旋律。隨后向模型輸入曲目的文本描述及其相應(yīng)的旋律,促使模型重新創(chuàng)建原始曲目。這種方法與最初模型的訓(xùn)練目標(biāo)不同。MusicLM一類的模型唯一的任務(wù)是根據(jù)文本重新創(chuàng)建音頻。
為了理解這樣的訓(xùn)練方式,讓我們想想人工智能模型在這個(gè)訓(xùn)練過(guò)程中學(xué)到了什么。本質(zhì)上,模型學(xué)習(xí)的是如何根據(jù)文本描述將旋律變成一首完整的音樂(lè)。這意味著訓(xùn)練結(jié)束后,我們可以為模型提供旋律,并要求它以任何流派、情緒或樂(lè)器創(chuàng)作一首音樂(lè)。對(duì)于模型來(lái)說(shuō),這與它在訓(xùn)練過(guò)程中已成功完成無(wú)數(shù)次的“半盲”生成任務(wù)相同。了解MusicGen旋律條件限制音頻音樂(lè)生成技術(shù)后,我們?nèi)匀恍枰獞?yīng)對(duì)精確定義“旋律”的挑戰(zhàn)。
什么是“旋律”?
事實(shí)上,除非所有樂(lè)器同度演奏,否則沒有客觀的方法來(lái)確定和提取復(fù)調(diào)音樂(lè)作品的“旋律”。雖然通常會(huì)有一種突出的樂(lè)器,例如主唱、吉他或小提琴,但這并不一定意味著其他樂(lè)器不是“旋律”的一部分。以皇后樂(lè)隊(duì)的《波西米亞狂想曲》為例,當(dāng)你想到這首歌時(shí),你可能首先想起弗雷迪·摩克瑞的主唱旋律。 然而,前奏中的鋼琴、中間部分的合唱組以及“So you think you can rock me [...]”之前的電吉他也可以算作旋律之一。
提取歌曲“旋律”的一種方法是將最突出最響亮的旋律視為最主要的旋律。 色譜圖(chromagram)是一種廣泛使用的表示形式,可以直觀地顯示整個(gè)曲目中最主要的音符。 下面是兩張色譜圖,一個(gè)是完整錄音,一個(gè)去除了鼓和貝斯。 在豎軸上,與旋律最相關(guān)的音符(B、F#、G)以藍(lán)色突出顯示。
兩個(gè)色譜圖都準(zhǔn)確地描繪了主要旋律音符,而去除了鼓和貝斯的版本提供了更清晰的可視化效果。 Meta的研究也揭示了相同的觀察結(jié)果,這促使他們利用音源分離工具(DEMUCS)從曲目中刪除任何干擾的節(jié)奏性元素。 這個(gè)過(guò)程能提取到具有足夠代表性的“旋律”,然后可以將其輸入到模型中。
至此,我們現(xiàn)在可以將這些流程連接起來(lái),以了解請(qǐng)求MusicGen執(zhí)行旋律條件限制生成時(shí)的底層步驟。 以下是工作步驟的圖示:
圖5:MusicGen如何產(chǎn)生旋律條件限制的音樂(lè)輸出。
局限
雖然MusicGen在旋律限制方面做出了有希望的進(jìn)展,但是該技術(shù)仍在開發(fā)完善當(dāng)中。即使移除了鼓和貝斯,色譜圖也無(wú)法完美地呈現(xiàn)曲目的旋律。其中一個(gè)限制是色譜圖將所有音符分為12個(gè)西方音級(jí),這意味著得到的是兩個(gè)音級(jí)之間的絕對(duì)變化,但并沒有獲取旋律向上或向下的方向。
舉例來(lái)說(shuō),從C4移動(dòng)到G4(純五度)之間的旋律音程與從C4移動(dòng)到 G3(純四度)之間的旋律音程有很大不同。然而在色譜圖中,兩個(gè)音程看起來(lái)是相同的。八度跳躍時(shí)問(wèn)題會(huì)變得更嚴(yán)重,因?yàn)樯V圖會(huì)表明旋律保持在同一音符上。 想象一下色譜圖如何將席琳·迪翁在“My Heart Will Go On”中“Where-ever you are”這句中的八度音階跳躍識(shí)別為不變的音高。 這樣的錯(cuò)誤看看下面 A-ha 的“Take on Me”中合唱的色譜圖即可。
圖 7:“Take on Me”移除了貝斯和鼓的副歌色譜圖。
另一個(gè)挑戰(zhàn)是色譜圖的固有誤差。 色譜圖在捕捉某些歌曲的旋律方面表現(xiàn)良好,但在其他歌曲中卻完全不行。 這種誤差是系統(tǒng)性的而不是隨機(jī)的。 與旋律復(fù)雜分布在多種樂(lè)器上并具有較大音程跳躍的歌曲相比,主旋律明確、音程跳躍少、齊奏為主的歌曲可以通過(guò)色譜更好地表示。
此外,生成式人工智能模型本身的局限性也值得注意。 輸出音頻質(zhì)量表現(xiàn)出與真正音樂(lè)的明顯差異,并且在六秒鐘內(nèi)的生成內(nèi)容中保持風(fēng)格一致仍然有難度。 此外,MusicGen未能忠實(shí)地實(shí)現(xiàn)文本提示中的更復(fù)雜的描述。 旋律條件限制生成需要進(jìn)一步的技術(shù)進(jìn)步,以達(dá)到不僅可以用于娛樂(lè)和靈感尋找,還可以直接生成達(dá)到最終令人滿意的水平。
未來(lái)展望
從作者的角度來(lái)看,關(guān)于旋律條件限制音樂(lè)生成的主要問(wèn)題之一是提取和表示“旋律”的方式。雖然色譜圖是一種成熟且簡(jiǎn)單的信號(hào)處理方法,但有許多最新的研究開始利用深度學(xué)習(xí)來(lái)實(shí)現(xiàn)此目的。看到像Meta這樣的公司從這些研究中汲取靈感將是令人興奮的,其中許多研究都在 Reddy 等人的 72 頁(yè)綜述[https://arxiv.org/pdf/2202.01078.pdf](2022)中進(jìn)行了介紹。
關(guān)于模型本身的質(zhì)量問(wèn)題,幾個(gè)提升方向包括擴(kuò)大模型規(guī)模、增加訓(xùn)練數(shù)據(jù)、針對(duì)特定任務(wù)開發(fā)更有效的算法等可以增強(qiáng)音頻質(zhì)量和文本的理解能力。2023年1月MusicLM的發(fā)布類似于“GPT-2時(shí)刻”。 我們開始見證這些模型的潛力,但各個(gè)方面仍需要重大改進(jìn)。 如果這個(gè)類比成立,類似于GPT-3的音樂(lè)生成模型發(fā)布將比我們預(yù)期的更早。
對(duì)音樂(lè)人有何影響?
正如生成式音樂(lè)人工智能的常見情況一樣,人們擔(dān)心它會(huì)對(duì)音樂(lè)創(chuàng)作者的工作和生計(jì)產(chǎn)生潛在的負(fù)面影響。 在未來(lái),通過(guò)編曲來(lái)謀生將變得越來(lái)越具有挑戰(zhàn)性。 這在廣告歌曲制作等場(chǎng)景中尤其明顯,公司可以毫不費(fèi)力地以最低的成本為新的廣告活動(dòng)或個(gè)性化廣告生成特征廣告歌曲旋律的多種變體。 毫無(wú)疑問(wèn),這對(duì)依賴此類活動(dòng)作為重要收入來(lái)源的音樂(lè)家構(gòu)成了威脅。 因此,我們呼吁音樂(lè)創(chuàng)作者重視提升客觀的音樂(lè)品質(zhì),而不是主觀人脈,并探索其他收入來(lái)源,為未來(lái)做好準(zhǔn)備。
從積極的一面來(lái)看,旋律條件限制音樂(lè)生成為增強(qiáng)人類創(chuàng)造力提供了令人難以置信的工具。 如果有人創(chuàng)作出令人難忘的旋律,他們可以快速生成示例來(lái)聽聽在各種流派中的效果。 這個(gè)過(guò)程可以幫助確定理想的流派和風(fēng)格,使音樂(lè)栩栩如生。此外,它還提供了一個(gè)機(jī)會(huì)來(lái)重新審視過(guò)去音樂(lè)作品,探索它們?cè)诓煌髋娠L(fēng)格中改編的潛力。 最后,這項(xiàng)技術(shù)降低了沒有經(jīng)過(guò)正規(guī)音樂(lè)培訓(xùn)但具有創(chuàng)造能力的個(gè)人參與創(chuàng)作的門檻。 現(xiàn)在,任何人都可以創(chuàng)作一首旋律,對(duì)著智能手機(jī)麥克風(fēng)哼唱,并與朋友、家人分享他們的精彩編曲,甚至在網(wǎng)絡(luò)上擁有粉絲。
人工智能音樂(lè)生成對(duì)我們社會(huì)的影響仍然存在爭(zhēng)議。 然而,旋律條件限制音樂(lè)生成這項(xiàng)技術(shù)的實(shí)際應(yīng)用增強(qiáng)了專業(yè)和有抱負(fù)的創(chuàng)作者的工作方向。 它提供的探索路徑可以為社會(huì)增加價(jià)值。我們期待在不久的將來(lái)見證這一領(lǐng)域的不斷進(jìn)步。
錄音棚設(shè)備解決方案 售前咨詢:13366394396

【打印此頁(yè)】【返回首頁(yè)】 |