透明奶罩和丁字裤凸点h,国产v视频在线亚洲视频,一区二区三区在线观看亚洲电影,老人船上弄雨荷1一5节

AI人工智能行業(yè)資訊更多

AI研習(xí)丨智能音樂生成技術(shù)與元宇宙

來源:世展網(wǎng) 分類:AI人工智能行業(yè)資訊 2025-01-24 17:10 閱讀:*****
分享:

2024年蘇州人工智能展AIExpo

2024-12-10-12-11

展會(huì)結(jié)束
文/張克俊

1 背景

1.1 元宇宙與音樂藝術(shù)

元宇宙為音樂藝術(shù)提供了生長的土壤,未來人們可以在上面自由創(chuàng)作,可以與更多人交流學(xué)習(xí)。同時(shí),元宇宙中虛擬現(xiàn)實(shí)等一系列技術(shù)為藝術(shù)家提供了藝術(shù)展現(xiàn)的新方式,有望突破時(shí)空限制,使得我們可以很容易地打造一個(gè)音樂藝術(shù)的生態(tài)圈,進(jìn)而極大地提升音樂創(chuàng)作者和聽眾的情感共鳴體驗(yàn)。比如,現(xiàn)場的報(bào)告通常比線上的體驗(yàn)好,因?yàn)榫€下不僅有分享者與聽者之間的交流,還有聽眾與聽眾之間的交流(體驗(yàn))。因此,我們認(rèn)為,隨著元宇宙技術(shù)的發(fā)展,AIGC領(lǐng)域特別是智能音樂生成領(lǐng)域?qū)⑿枰嗟乜紤]高質(zhì)量生成、人機(jī)協(xié)作生成和個(gè)性化生成等問題。

1.2 元宇宙背景下音樂人機(jī)共創(chuàng)有鑒于此,我們開始思考如何在元宇宙背景下開展智能音樂生成研究,并有效解決上述問題。我們認(rèn)為,想要滿足元宇宙中對音樂生成的要求,不但需要重視人機(jī)共創(chuàng),也需要重視開放式協(xié)作。人機(jī)共創(chuàng)和開放式協(xié)作將相輔相成。下面從開放性協(xié)作、人機(jī)共創(chuàng)角度介紹我們實(shí)驗(yàn)室四個(gè)方面的工作。第一,人機(jī)獨(dú)立發(fā)展階段(Guo,et al,2022)。人機(jī)獨(dú)立創(chuàng)作無合作,依賴數(shù)據(jù)。第二,知識融入階段 (Chen,et al,2022)。將人類的創(chuàng)作知識融入AI,人與機(jī)器有協(xié)作。第三,認(rèn)知拓展階段(Wang,et al,2022)。不僅有協(xié)作,還可以在其中找到更高層面的認(rèn)知拓展-更高的需求。第四,理解升級階段。豐富創(chuàng)作策略,實(shí)現(xiàn)人機(jī)共創(chuàng),達(dá)到人機(jī)融合。值得一提的是,這四個(gè)階段并沒有嚴(yán)格界定的順序或先后,僅是一個(gè)對人機(jī)協(xié)作范式不斷迭代的過程。值得一提的是,這四個(gè)階段并沒有嚴(yán)格界定的順序或先后,僅是一個(gè)對人機(jī)協(xié)作范式不斷迭代的過程。

2 研究

2.1 人機(jī)獨(dú)立人機(jī)獨(dú)立階段,我們主要研究由大數(shù)據(jù)引導(dǎo)的歌曲翻譯任務(wù)(人機(jī)獨(dú)立)。相較于傳統(tǒng)的文本翻譯,歌曲翻譯需要滿足更多的要求。包括以下三點(diǎn):①可信度,即翻譯結(jié)果需要保留原始語義;②和諧度,即翻譯得到的歌詞與原曲所構(gòu)成的有機(jī)整體是和諧的,盡量避免誤聽的情況;③藝術(shù)性,即歌詞不能像普通文本一樣平鋪直敘,需要有美感,也就是看起來像“歌詞”。其中,想要達(dá)到第二點(diǎn)和諧度,首先需要保證詞曲的長度相近,避免難以對齊的情況;其次則需要使旋律節(jié)奏與歌詞節(jié)奏相呼應(yīng);最后,旋律走向也需要與歌詞音調(diào)走向呼應(yīng)。因此,單純基于文本翻譯模型的歌詞翻譯系統(tǒng)會(huì)出現(xiàn)原有節(jié)奏被破壞、歌詞無法唱出來等問題。為此我們從局部層面和全局層面挖掘樂理知識和翻譯約束,采用無監(jiān)督學(xué)習(xí)的方式,引導(dǎo)式地進(jìn)行自動(dòng)歌曲翻譯。首先,使用海量文本翻譯數(shù)據(jù)訓(xùn)練一個(gè)翻譯模型,以確保翻譯可信度;其次,增加樂理約束以確保和諧度,具體來說,在訓(xùn)練階段增加長度標(biāo)簽以控制模型輸出長度,在解碼階段添加節(jié)奏和音高的對齊約束;然后,利用非對齊歌詞數(shù)據(jù)及少量的歌詞翻譯數(shù)據(jù)對基礎(chǔ)翻譯模型的語言模型部分繼續(xù)優(yōu)化,以生成更像歌詞的翻譯結(jié)果。模型可以被分解為:①訓(xùn)練階段,風(fēng)格化與長度約束的歌詞翻譯模型;②推理階段,音高與節(jié)奏約束的波束搜索。實(shí)際中,如圖1所示,GagaST模型成功平衡語義和可唱性,在自動(dòng)和人工評估中取得不錯(cuò)的效果,能夠很好地找到某個(gè)英文用中文的哪些歌詞來替代,既能達(dá)到意思相近又能達(dá)到旋律相近。在這項(xiàng)研究中,人不需要參與,也不需要協(xié)作就可以實(shí)現(xiàn)預(yù)定目標(biāo),因此我們定義這類研究為“人機(jī)獨(dú)立”。2.2 知識融入語言學(xué)家、音樂家研究表明,歌詞與旋律關(guān)系集中在節(jié)奏、音高和結(jié)構(gòu)三方面。因此,我們開始探索融合節(jié)奏、 音高和結(jié)構(gòu)等音樂知識進(jìn)行歌詞到旋律的生成( 知識融入)。近 期, 我們提出了ReLyMe——即人類作詞、機(jī)器作旋律,一種基于人類詞曲創(chuàng)作知識(歌詞)的旋律生成方法(見圖 2)。ReLyMe對節(jié)奏、音高和結(jié)構(gòu)這三方面的歌詞旋律關(guān)系分別建模。音高方面,我們考慮三個(gè)不同的粒度:①單個(gè)聲調(diào)的音高形狀;②相鄰聲調(diào)的音高過渡;③完整句子的音高走向。節(jié)奏方面,首先強(qiáng)拍需對應(yīng)關(guān)鍵字,弱拍對應(yīng)助詞;同時(shí)旋律的停頓位置與歌詞斷句位置也要相對應(yīng);結(jié)構(gòu)方面,相同結(jié)構(gòu)的歌詞需要對應(yīng)重復(fù)的旋律。客觀實(shí)驗(yàn)結(jié)果與主觀實(shí)驗(yàn)結(jié)果表明,ReLyMe提升了SongMASS、TeleMelody等歌詞到旋律生成模型的表現(xiàn),有效地將詞曲關(guān)系納入神經(jīng)網(wǎng)絡(luò)模型,提高聽眾對生成的旋律的感知度。如圖2所示,藍(lán)色表示音高;綠色表示旋律相近性值得一提的是,古時(shí)候的名家往往身兼詞曲,就像《詩經(jīng)》中所有的詩都是可以唱出來的?,F(xiàn)在有很多人只會(huì)作詞,不會(huì)作曲。未來,元宇宙背景下的“分工”將越來越細(xì),因此對合作或者協(xié)作要求就越來越高。2.3 認(rèn)知拓展那么, 如何實(shí)現(xiàn)人與機(jī)器更深度、 緊密的共創(chuàng)、協(xié)作(認(rèn)知拓展)?比如人類作旋律、機(jī)器作伴奏,如何解決實(shí)時(shí)人機(jī)協(xié)作難題?解決這一難題對算法的要求非常高, 主要體現(xiàn)在機(jī)器伴奏需盡可能縮短延時(shí)、 保持高質(zhì)量。于是, 我們提出了SongDriver。如圖3所示,它借用了同聲傳譯的思路,融合了同聲傳譯中的人類經(jīng)驗(yàn)提出并行機(jī)制,提升了伴奏的同步性;融合了申克理論提取的樂理知識作為特征——提升了伴奏的聽感質(zhì)量。也即消除了實(shí)時(shí)伴奏的邏輯延遲和誤差累積,實(shí)現(xiàn)了較高的同步性、較穩(wěn)定的聽感質(zhì)量。2.4 理解升級階段最后,我們的工作聚焦于理解音樂本質(zhì),把音樂分析理論融入進(jìn)來(理解升級),讓音樂生成變得可分析、可控。在這項(xiàng)工作中,我們除了對單獨(dú)的音樂特征進(jìn)行抽取,更重視音樂特征之間的關(guān)系,從而滿足更多的個(gè)性化需求。有鑒于申克/GTTM層級化的分析方式能將分離的元素聯(lián)系起來,同時(shí)為用戶的個(gè)性化需求留下空間,我們將其引入到我們最新的研究中,如圖4所示。具體來說,我們根據(jù)心理學(xué)實(shí)證調(diào)查了音樂底層存在的長期依賴結(jié)構(gòu),提出了知識增強(qiáng)的旋律骨架引導(dǎo)的層級式旋律生成模型,先預(yù)測骨干的發(fā)展,再填充骨干的間隙來完成旋律創(chuàng)作,提升了旋律的結(jié)構(gòu)性和音樂性。通過實(shí)驗(yàn)驗(yàn)證,基于專業(yè)音樂知識提取的骨架具備有效性,且旋律生成的質(zhì)量和可控性相比端到端更優(yōu)。實(shí)際上,申克GTTM中的結(jié)構(gòu)和延長,如同裝修房間的硬裝和軟裝,有穩(wěn)定性一面、也有個(gè)性化一面。我們的房間會(huì)頻繁裝修,我們會(huì)改動(dòng)硬件結(jié)構(gòu)也會(huì)改動(dòng)軟件結(jié)構(gòu),要不斷個(gè)性化、可控的裝修(人機(jī)協(xié)作)。

3 結(jié)束語

人類和AI共同生活在這個(gè)世界已經(jīng)成為共識,但并不是每個(gè)人都有音樂創(chuàng)作能力,但是每個(gè)人和AI組成的合體卻能夠迸發(fā)出巨大的藝術(shù)創(chuàng)作能力。在未來的元宇宙中,可能每個(gè)人都會(huì)攜帶自己的AI來與他人交流、合作和共創(chuàng),因此音樂創(chuàng)作等藝術(shù)創(chuàng)作的形式也將會(huì)大不相同。同時(shí),如圖5所示,元宇宙中帶來的情感共鳴提升,除了創(chuàng)作者之間的情感交流之外,也將體現(xiàn)在創(chuàng)作者和聽眾之間、聽眾和聽眾之間我們期待,未來元宇宙相關(guān)技術(shù)可以進(jìn)一步打破時(shí)空隔閡,把我們的靈感融入到元宇宙人人共創(chuàng)(參考文獻(xiàn)略)選自《中國人工智能學(xué)會(huì)通訊》2022年第12卷第12期人工智能與生命科學(xué)專題↓↓↓ 歡迎加入學(xué)會(huì)大家庭,獲取更多會(huì)員專屬福利

掃碼加入我們

閱讀原文

會(huì)務(wù)組聯(lián)系方式  

展會(huì)咨詢

相關(guān)AI人工智能行業(yè)展會(huì)

2026年深圳國際元宇宙及電競娛樂展MES

2026-03-01~03-03 距離242
75061展會(huì)熱度 評論(0)

2025年上海世界人工智能大會(huì)WAIC

2025-07-26~07-29 距離24
198453展會(huì)熱度 評論(0)

2025年鄭州世界數(shù)字產(chǎn)業(yè)博覽會(huì)WDIE

2025-03-21~03-23 展會(huì)結(jié)束
57566展會(huì)熱度 評論(0)

2025年北京全球數(shù)字經(jīng)濟(jì)大會(huì)Global Digital Economy Conference

2025-07-01~07-01 展會(huì)結(jié)束
57027展會(huì)熱度 評論(0)

2024年蘇州人工智能展AIExpo

2024-12-10~12-11 展會(huì)結(jié)束
80340展會(huì)熱度 評論(0)

2025年深圳高交會(huì)人工智能與大數(shù)據(jù)展CHTF

2025-11-14~11-16 距離135
50921展會(huì)熱度 評論(0)

2025年第6屆深圳國際人工智能展GAIE

2025-05-22~05-24 展會(huì)結(jié)束
83350展會(huì)熱度 評論(0)
X
客服
電話
13924230066

服務(wù)熱線

掃一掃

世展網(wǎng)公眾號

微信小程序

銷售客服

門票客服

TOP
X
主站蜘蛛池模板: 日照市| 蓬安县| 定陶县| 勃利县| 永顺县| 孙吴县| 边坝县| 什邡市| 福清市| 山东省| 西安市| 汝州市| 手机| 防城港市| 呼玛县| 电白县| 花莲市| 横峰县| 扶风县| 临泉县| 南投县| 韶山市| 琼结县| 玉门市| 集贤县| 晋中市| 高密市| 上饶县| 尤溪县| 壤塘县| 普兰县| 宁夏| 九龙县| 绵竹市| 崇左市| 长顺县| 托里县| 嘉义市| 宝应县| 唐河县| 滨州市|