分享: |
1 背景
1.1 元宇宙與音樂藝術(shù)元宇宙為音樂藝術(shù)提供了生長的土壤,未來人們可以在上面自由創(chuàng)作,可以與更多人交流學(xué)習(xí)。同時(shí),元宇宙中虛擬現(xiàn)實(shí)等一系列技術(shù)為藝術(shù)家提供了藝術(shù)展現(xiàn)的新方式,有望突破時(shí)空限制,使得我們可以很容易地打造一個(gè)音樂藝術(shù)的生態(tài)圈,進(jìn)而極大地提升音樂創(chuàng)作者和聽眾的情感共鳴體驗(yàn)。比如,現(xiàn)場的報(bào)告通常比線上的體驗(yàn)好,因?yàn)榫€下不僅有分享者與聽者之間的交流,還有聽眾與聽眾之間的交流(體驗(yàn))。因此,我們認(rèn)為,隨著元宇宙技術(shù)的發(fā)展,AIGC領(lǐng)域特別是智能音樂生成領(lǐng)域?qū)⑿枰嗟乜紤]高質(zhì)量生成、人機(jī)協(xié)作生成和個(gè)性化生成等問題。
1.2 元宇宙背景下音樂人機(jī)共創(chuàng)有鑒于此,我們開始思考如何在元宇宙背景下開展智能音樂生成研究,并有效解決上述問題。我們認(rèn)為,想要滿足元宇宙中對音樂生成的要求,不但需要重視人機(jī)共創(chuàng),也需要重視開放式協(xié)作。人機(jī)共創(chuàng)和開放式協(xié)作將相輔相成。下面從開放性協(xié)作、人機(jī)共創(chuàng)角度介紹我們實(shí)驗(yàn)室四個(gè)方面的工作。第一,人機(jī)獨(dú)立發(fā)展階段(Guo,et al,2022)。人機(jī)獨(dú)立創(chuàng)作無合作,依賴數(shù)據(jù)。第二,知識融入階段 (Chen,et al,2022)。將人類的創(chuàng)作知識融入AI,人與機(jī)器有協(xié)作。第三,認(rèn)知拓展階段(Wang,et al,2022)。不僅有協(xié)作,還可以在其中找到更高層面的認(rèn)知拓展-更高的需求。第四,理解升級階段。豐富創(chuàng)作策略,實(shí)現(xiàn)人機(jī)共創(chuàng),達(dá)到人機(jī)融合。值得一提的是,這四個(gè)階段并沒有嚴(yán)格界定的順序或先后,僅是一個(gè)對人機(jī)協(xié)作范式不斷迭代的過程。值得一提的是,這四個(gè)階段并沒有嚴(yán)格界定的順序或先后,僅是一個(gè)對人機(jī)協(xié)作范式不斷迭代的過程。2 研究
2.1 人機(jī)獨(dú)立人機(jī)獨(dú)立階段,我們主要研究由大數(shù)據(jù)引導(dǎo)的歌曲翻譯任務(wù)(人機(jī)獨(dú)立)。相較于傳統(tǒng)的文本翻譯,歌曲翻譯需要滿足更多的要求。包括以下三點(diǎn):①可信度,即翻譯結(jié)果需要保留原始語義;②和諧度,即翻譯得到的歌詞與原曲所構(gòu)成的有機(jī)整體是和諧的,盡量避免誤聽的情況;③藝術(shù)性,即歌詞不能像普通文本一樣平鋪直敘,需要有美感,也就是看起來像“歌詞”。其中,想要達(dá)到第二點(diǎn)和諧度,首先需要保證詞曲的長度相近,避免難以對齊的情況;其次則需要使旋律節(jié)奏與歌詞節(jié)奏相呼應(yīng);最后,旋律走向也需要與歌詞音調(diào)走向呼應(yīng)。因此,單純基于文本翻譯模型的歌詞翻譯系統(tǒng)會(huì)出現(xiàn)原有節(jié)奏被破壞、歌詞無法唱出來等問題。為此我們從局部層面和全局層面挖掘樂理知識和翻譯約束,采用無監(jiān)督學(xué)習(xí)的方式,引導(dǎo)式地進(jìn)行自動(dòng)歌曲翻譯。首先,使用海量文本翻譯數(shù)據(jù)訓(xùn)練一個(gè)翻譯模型,以確保翻譯可信度;其次,增加樂理約束以確保和諧度,具體來說,在訓(xùn)練階段增加長度標(biāo)簽以控制模型輸出長度,在解碼階段添加節(jié)奏和音高的對齊約束;然后,利用非對齊歌詞數(shù)據(jù)及少量的歌詞翻譯數(shù)據(jù)對基礎(chǔ)翻譯模型的語言模型部分繼續(xù)優(yōu)化,以生成更像歌詞的翻譯結(jié)果。模型可以被分解為:①訓(xùn)練階段,風(fēng)格化與長度約束的歌詞翻譯模型;②推理階段,音高與節(jié)奏約束的波束搜索。實(shí)際中,如圖1所示,GagaST模型成功平衡語義和可唱性,在自動(dòng)和人工評估中取得不錯(cuò)的效果,能夠很好地找到某個(gè)英文用中文的哪些歌詞來替代,既能達(dá)到意思相近又能達(dá)到旋律相近。3 結(jié)束語
人類和AI共同生活在這個(gè)世界已經(jīng)成為共識,但并不是每個(gè)人都有音樂創(chuàng)作能力,但是每個(gè)人和AI組成的合體卻能夠迸發(fā)出巨大的藝術(shù)創(chuàng)作能力。在未來的元宇宙中,可能每個(gè)人都會(huì)攜帶自己的AI來與他人交流、合作和共創(chuàng),因此音樂創(chuàng)作等藝術(shù)創(chuàng)作的形式也將會(huì)大不相同。同時(shí),如圖5所示,元宇宙中帶來的情感共鳴提升,除了創(chuàng)作者之間的情感交流之外,也將體現(xiàn)在創(chuàng)作者和聽眾之間、聽眾和聽眾之間。閱讀原文
展會(huì)咨詢
![]() |
![]() |
![]() |
![]() |
世展網(wǎng)公眾號 |
微信小程序 |
銷售客服 |
門票客服 |