首個(gè)國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費(fèi)用，不限曲風(fēng)

xiaxunyi 2025-03-30 百度 16 次瀏覽 0個(gè)評(píng)論

在「天工」大模型發(fā)布一周年之際，昆侖萬維重磅宣布，「天工 3.0」基座大模型與「天工 SkyMusic」音樂大模型正式開啟公測。

自從 AI 讓人類實(shí)現(xiàn)音樂創(chuàng)作自由后，連吵架都變得有趣了起來。

前段時(shí)間，X 平臺(tái)知名 AI 博主 Aran Komatsuzaki 自己寫了一首歌，專門用來表達(dá)對(duì)另一位 AI 科學(xué)家 ——Gary Marcus 的不滿，還用當(dāng)前大火的 Suno 把它生成了出來。要知道，過去，這些大佬們的口水戰(zhàn)主要就是發(fā)個(gè)帖子，然后你來我往地跟帖。這次，Aran Komatsuzaki 的做法可謂是玩出了新花樣，不知道是不是從「謝帝謝帝我要 diss 你」得到的靈感。

和 Aran Komatsuzaki 一樣，國內(nèi)外很多懂音樂、不懂音樂的人都在試玩 Suno 等 AI 音樂創(chuàng)作工具，生成了很多非常有意思的音樂作品。

不過，有很多網(wǎng)友反映，Suno 有時(shí)生成中文不太穩(wěn)定，會(huì)出現(xiàn)中文歌曲帶有英文感、生僻字唱錯(cuò)等問題。

^{B 站網(wǎng)友針對(duì) Suno 生成的一首中文歌發(fā)表的評(píng)論。視頻地址：https://b23.tv/gVqTUOu}

那么，有沒有一個(gè) AI 音樂生成模型專門針對(duì)中文做過優(yōu)化呢？

昆侖萬維今日面向全社會(huì)開放公測的「天工 SkyMusic」就是這樣一個(gè)模型。它生成的中文人聲發(fā)音清晰、正宗、無異響，沒有出現(xiàn)「百老匯式中文歌」等水土不服的情況。而且，它不僅針對(duì)普通話做了優(yōu)化，粵語、成都話、北京話等方言語種也照顧到了。

那么，和 Suno 比，天工 SkyMusic 表現(xiàn)如何呢？橫向測評(píng)的數(shù)據(jù)顯示，在人聲和 BGM 音質(zhì)、人聲自然度、發(fā)音可懂度等幾個(gè)指標(biāo)上，天工 SkyMusic 都更勝一籌，綜合性能超越 Suno V3，成為中國首個(gè)音樂 AIGC 的 SOTA 模型，也讓中國的自研大模型技術(shù)第一次在 AIGC 領(lǐng)域領(lǐng)跑全球。

如此優(yōu)異的表現(xiàn)自然離不開強(qiáng)大的基座模型，即昆侖萬維在同一時(shí)間發(fā)布并開源的大模型「天工 3.0」。該模型擁有 4000 億參數(shù)，超越了 3140 億參數(shù)的 Grok-1，是全球最大的開源 MoE 大模型。

在 MMBench 等多項(xiàng)權(quán)威多模態(tài)測評(píng)結(jié)果中，「天工 3.0」超越 GPT-4V，全球領(lǐng)先。

在這個(gè)基座模型的加持下，天工 SkyMusic 對(duì)歌曲的理解更為深刻。它能夠通過歌詞控制情緒變化，并實(shí)現(xiàn)如顫音、歌劇、吟唱等多種歌唱技巧，使生成的音樂作品情感更加豐富且貼合情境。

那么，這個(gè)模型具體怎么用？技術(shù)路線是怎樣的？它背后的「天工 3.0」又有何創(chuàng)新之處？我們一個(gè)一個(gè)來看。

首個(gè)國產(chǎn)音樂 SOTA 模型的無限玩法

其實(shí)，用天工 SkyMusic 生成歌曲是非常簡單的：你只需要輸入歌名、歌詞，選擇參考曲目，它就能生成風(fēng)格、唱腔與之類似的歌。

如果你不想自己寫歌詞，也可以試試輸入框右下角的「AI 寫詞」功能。它可以從第一句開始寫，每次只生成一句，不滿意的句子可以及時(shí)刪掉，直至整首歌創(chuàng)作完成。

當(dāng)然，你也可以嘗試用「天工 3.0」來寫歌，比如這首《機(jī)器之心》就是我們用「天工 3.0」寫出來的：

接下來就是選擇參考歌曲，這也是天工 SkyMusic 的獨(dú)特之處，即能夠按照示例音源生成音樂。

在這一步，天工 SkyMusic 提供了很多參考曲目，你可以從中挑選，也可以選擇上傳歌曲文件。在這里，我們上傳了一首洛天依的歌曲，看看生成效果如何：這種按照示例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在用戶作品展示區(qū)域，我們看到，光是《新造的人》（電影《周處除三害》插曲）就有古風(fēng)搖滾、DJ 等五個(gè)版本。在試用過程中我們還發(fā)現(xiàn)，其實(shí)，天工 SkyMusic 生成的音樂涵蓋了說唱、民謠、放克、古風(fēng)、電子等多種曲風(fēng)。下一步，團(tuán)隊(duì)還計(jì)劃讓用戶根據(jù)哼出來的旋律生成歌曲，這將對(duì)專業(yè)人士有很大幫助。

目前，天工 SkyMusic 已全面開放，下載「天工」APP 就可以體驗(yàn)。這是國內(nèi)目前唯一公開可用的 AI 音樂生成大模型，它的出現(xiàn)填補(bǔ)了國內(nèi) AIGC 工具在這一領(lǐng)域的空白。

雖然這個(gè)模型還處于起步階段，但已經(jīng)讓很多人感受到了音樂創(chuàng)作的樂趣。大家用它去改造神曲、二創(chuàng)金曲、改寫古詩詞助力教育…… 開發(fā)出了各種音樂創(chuàng)作新方向。

自研類 Sora 架構(gòu)，技術(shù)路線圖已公開

天工 SkyMusic 是一個(gè)端到端的音樂生成模型，因此我們用起來感覺非常簡單。但是，整個(gè)模型的開發(fā)卻沒有那么簡單。

首先從技術(shù)路線來說，天工 SkyMusic 選擇了大模型音樂音頻生成路線，這意味著它直接學(xué)習(xí)并生成音頻波形，而不是采用符號(hào)音樂生成路線（如 MIDI）來生成樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成，從而提供更直接、更高質(zhì)量的音樂創(chuàng)作體驗(yàn)。但是，這個(gè)方向也更難，需要高昂的算力和資金，因此做的人非常少。

而且，在這個(gè)方向中，下決心去攻克「人聲 Song」領(lǐng)域的人更少，大部分研究集中于無人聲的 BGM 領(lǐng)域，因?yàn)榍罢邘缀鯖]有任何開放的資料或開源模型可供參考。

頂著這些壓力，昆侖萬維做了無數(shù)次研發(fā)實(shí)驗(yàn)，投入了大量算力，構(gòu)建了包含 2000 萬首歌曲的數(shù)據(jù)集（人類有史以來最大的音樂數(shù)據(jù)集），終于探索出了一個(gè)效果好、可復(fù)現(xiàn)的方案。而且，他們還把這個(gè)方案的技術(shù)原理圖公開了。

^{天工 SkyMusic 技術(shù)原理圖：Large-scale Transformer 負(fù)責(zé)譜曲，來學(xué)習(xí) Music Patches 的上下文依賴關(guān)系，同時(shí)完成音樂可控性；Diffusion Transformer 負(fù)責(zé)演唱，通過 LDM 讓 Music Patches 被還原成高質(zhì)量音頻。這套模型架構(gòu)在處理視頻、音頻和音樂時(shí)效果極佳。}

從圖中可以看出，天工 SkyMusic 的框架是類 Sora 的 DiT 技術(shù)路徑，不過研發(fā)時(shí)間是在 Sora 問世之前，因此不可避免地要踩很多坑。

對(duì)于產(chǎn)業(yè)來說，這張?jiān)韴D非常寶貴，因?yàn)槭忻嫔蠜]有任何可用的 AI 音樂大模型企業(yè)公開自己的技術(shù)路徑，包括 SUNO，昆侖萬維是唯一一個(gè)。

強(qiáng)大的背后基座 —— 天工 3.0

天工 SkyMusic 的成功離不開它背后的基座模型 —— 天工 3.0。它最核心的升級(jí)體現(xiàn)在「獨(dú)立思考」方面。這在該模型新增的多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式等功能中均有所體現(xiàn)。

給定一個(gè)數(shù)據(jù)統(tǒng)計(jì)任務(wù)，它不僅能夠幫你把數(shù)據(jù)都收集齊全，還能自己寫代碼、調(diào)用各種函數(shù)來繪制圖表。各個(gè)中間步驟被拆解得條理清晰，后續(xù)的執(zhí)行也基本不需要人去干預(yù)，甚至連「避免標(biāo)簽重疊」、「文本居中顯示」這類細(xì)節(jié)都被考慮到了。這就是「獨(dú)立思考」能力的體現(xiàn)。

這種「獨(dú)立思考」能力的提升離不開「天工 3.0」在語義理解、邏輯推理等方面的優(yōu)化。與上一代「天工 2.0」MoE 大模型相比，「天工 3.0」在模型語義理解、邏輯推理以及通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域擁有驚人的性能提升，其模型技術(shù)知識(shí)能力提升超過 20%，數(shù)學(xué) / 推理 / 代碼 / 文創(chuàng)能力提升超過 30%。

以搜索任務(wù)為例。在「搜索增強(qiáng)」模式中，給出一個(gè)簡單的搜索請(qǐng)求，「天工 3.0」不僅會(huì)給出一段概括性的回答，還會(huì)把一些重要信息提煉成圖表。

在「研究」模式中，它還會(huì)提供一個(gè)「深入研究」模塊，去展開討論搜索 Query 中未提到的延伸問題，讓你有一種在讀論文的感覺。最后，它還把這些信息整理成了思維導(dǎo)圖，方便迅速查閱。

在語義理解、邏輯推理能力均大幅提升的基礎(chǔ)上，「天工 3.0」還針對(duì)模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及信息的能力進(jìn)行了專項(xiàng)訓(xùn)練。通過獨(dú)立規(guī)劃以及調(diào)用、組合外部工具及信息，它可以幫你精準(zhǔn)高效地完成產(chǎn)業(yè)研究、產(chǎn)品橫評(píng)、信息分析等各類復(fù)雜需求。

這種獨(dú)立思考的能力對(duì)于人工智能大模型至關(guān)重要。首先，這種能力使得 AI 能夠在缺乏直接指令的情況下進(jìn)行自主推理，提高其處理復(fù)雜問題的能力；其次，獨(dú)立思考的 AI 模型能夠進(jìn)行創(chuàng)新性的解決方案設(shè)計(jì)，滿足個(gè)性化和場景化的需求；最后，這種能力促使 AI 在遇到新奇或變化的環(huán)境時(shí)，通過自我學(xué)習(xí)和適應(yīng)來持續(xù)優(yōu)化其性能。這三個(gè)方面的累積作用，極大地推動(dòng)了 AI 技術(shù)的應(yīng)用廣度和深度，使其在多種實(shí)際應(yīng)用中表現(xiàn)出更高的智能和效率。

「天工 3.0」包含了 AI 音樂、AI 搜索、AI 寫作、AI 繪畫等多項(xiàng)大模型能力，談到 4000 億參數(shù) MoE 大模型「天工 3.0」與天工 SkyMusic 背后的關(guān)系時(shí)，昆侖萬維董事長兼 CEO 方漢解釋說，「大家知道 AI 底座大模型是 AIGC 堅(jiān)實(shí)的基礎(chǔ)，尤其是文本大模型。文生圖、文生音樂和文生視頻（這些 AIGC 模型）的能力基礎(chǔ)都是文本大模型。如果文本模型能力不夠強(qiáng)，AIGC 能力就會(huì)受到很大限制?！?/p>

這種作用在「天工 3.0」的 AI 繪畫等能力上也有所體現(xiàn)?！柑旃?3.0」新增了圖片尺寸擴(kuò)展、圖片定向調(diào)整、墊圖生圖、墊圖進(jìn)化、墊圖擴(kuò)圖等全新功能，實(shí)測效果優(yōu)秀。

「我們的 4000 億大模型是給我們所有的面向 C 端的產(chǎn)品提供支撐的底座大模型。我的底座大模型做得越好，我的音樂、游戲、視頻以及動(dòng)漫產(chǎn)品就會(huì)做得更好。所以我們做底座大模型是有非常強(qiáng)的動(dòng)力的。」方漢說到。

實(shí)現(xiàn)通用人工智能，

讓每個(gè)人更好地塑造和表達(dá)自我

在關(guān)于 AGI 的愿景中，我們經(jīng)常聽一些AI企業(yè)高管提到，他們想要用 AI 工具來提高人類社會(huì)的生產(chǎn)力和效率。因此，他們大多專注于模型智力的擴(kuò)展和增強(qiáng)。但在方漢看來，這其中忽略了一個(gè)重要問題，即如何用 AI 幫助人們更好地理解和表達(dá)情感。

在天工 SkyMusic 的音樂作品區(qū)，我們看到了很多這樣的例子：學(xué)生即將畢業(yè)的離愁、青年愛而不得的神傷、中年人養(yǎng)家糊口的疲憊都通過歌聲表達(dá)了出來。這是真正的「以歌明志」。

而對(duì)于方言的支持則更像一種文化平權(quán)，這是方漢非?？粗氐囊稽c(diǎn)。未來，他們希望把更多語種加進(jìn)去，讓每一個(gè)小語種人群都可以輕松創(chuàng)作出屬于自己的文化內(nèi)容。

「在 AIGC 領(lǐng)域，我們宏偉的目標(biāo)是希望全世界每一個(gè)人都能平等地去創(chuàng)作內(nèi)容。我們想要降低所有人的創(chuàng)作門檻，讓大家都能更好地塑造和表達(dá)自我。」方漢表示。

最近，這些內(nèi)容還被寫入了昆侖萬維的最新使命中。

其實(shí)，這種做法在商業(yè)上也是有意義的?！敢坏┤巳硕伎梢詣?chuàng)作音樂之后，我相信任何一個(gè)公共場所，比如說每個(gè)餐廳、每個(gè)酒吧都可以創(chuàng)作出屬于自己的背景音樂，來滿足自己的業(yè)務(wù)需要?！狗綕h解釋說。

隨著未來持續(xù)的優(yōu)化完善，天工 SkyMusic 會(huì)逐漸演變成一個(gè)專業(yè)且易用的全民音樂創(chuàng)作平臺(tái)。

當(dāng)然，昆侖萬維的發(fā)力方向不只是音樂。以「天工 3.0」為基礎(chǔ)，他們已經(jīng)形成了六大 AI 業(yè)務(wù)矩陣。未來，這些矩陣將組成一個(gè) AI UGC 平臺(tái)。

這個(gè)平臺(tái)不僅能夠幫助普通人表達(dá)自我，還能幫助那些想用 AI 創(chuàng)作內(nèi)容的創(chuàng)作者完成 IP 創(chuàng)作的全閉環(huán)。這個(gè)閉環(huán)以「好的故事（IP）」為核心，跨越文本、漫畫、音樂和視頻等多種形式，消費(fèi)者的內(nèi)容消費(fèi)也都在這一個(gè)平臺(tái)上完成，這是昆侖萬維構(gòu)建的商業(yè)邏輯。

「我們的本質(zhì)是讓更多人參加到創(chuàng)作者隊(duì)伍里面去。前提是你要會(huì)講一個(gè)好的故事。如果你能夠創(chuàng)作一個(gè)好的 IP，那么就能創(chuàng)作內(nèi)容?？梢灶A(yù)見到的是，所有內(nèi)容行業(yè)都將被重做一遍。創(chuàng)作者人數(shù)將以百倍擴(kuò)充，能夠消費(fèi)的內(nèi)容也是以百倍擴(kuò)充。人類將進(jìn)入一個(gè)新時(shí)代，這也是我們提出『All in AGI 與 AIGC』戰(zhàn)略的邏輯。」方漢說到。

這個(gè)時(shí)代將被塑造成什么樣子？我們拭目以待。

轉(zhuǎn)載請(qǐng)注明來自浙江中液機(jī)械設(shè)備有限公司 ，本文標(biāo)題：《首個(gè)國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費(fèi)用，不限曲風(fēng)》

xiaxunyi 354篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

新澳門出9點(diǎn)30今晚單雙_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
管家婆期期準(zhǔn)期期中_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025新澳門正版免費(fèi)_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
澳門今晚開特馬四不像圖_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
新奧800圖庫800圖片_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025澳門天天開好彩大全體育_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
2025新奧最精準(zhǔn)免費(fèi)大全_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司
六和彩開碼資料2024開獎(jiǎng)結(jié)果香港_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

發(fā)表評(píng)論取消回復(fù)

評(píng)論列表（暫無評(píng)論，16人圍觀）參與討論

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

首個(gè)國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費(fèi)用，不限曲風(fēng)

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

? 2025年4月 ?
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

super_admin管理員

最新文章

文章歸檔

網(wǎng)站收藏

首個(gè)國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費(fèi)用，不限曲風(fēng)

頂秀最新信息，頂秀最新動(dòng)態(tài)及創(chuàng)新產(chǎn)品系列全面解析

多平臺(tái)發(fā)布“清朗·2025年春節(jié)網(wǎng)絡(luò)環(huán)境整治”專項(xiàng)行動(dòng)治理成效和典型案例

福耀玻璃股份的最新股價(jià)，福耀玻璃股份股價(jià)動(dòng)態(tài)解析及發(fā)展前景展望

網(wǎng)約車最新信息查詢，網(wǎng)約車行業(yè)最新動(dòng)態(tài)與信息一覽

城市“集聚效應(yīng)”驅(qū)動(dòng)中國經(jīng)濟(jì)高質(zhì)量發(fā)展

最新家政招聘信息，最新家政服務(wù)崗位招聘信息：保姆、月嫂、保潔員、家庭廚師等熱門職位全面開放！

尖山鎮(zhèn)招聘網(wǎng)最新信息網(wǎng)，尖山鎮(zhèn)招聘網(wǎng)最新信息匯總報(bào)告

肯德基價(jià)格表最新出爐！2023年熱門產(chǎn)品價(jià)格一覽，2023年肯德基最新價(jià)格表，熱門產(chǎn)品價(jià)格大揭秘

新澳門出9點(diǎn)30今晚單雙_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

管家婆期期準(zhǔn)期期中_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025新澳門正版免費(fèi)_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

澳門今晚開特馬四不像圖_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

新奧800圖庫800圖片_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025澳門天天開好彩大全體育_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

2025新奧最精準(zhǔn)免費(fèi)大全_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

六和彩開碼資料2024開獎(jiǎng)結(jié)果香港_揭秘,警惕虛假宣傳-浙江中液機(jī)械設(shè)備有限公司

發(fā)表評(píng)論取消回復(fù)

還沒有評(píng)論，來說兩句吧...

最近發(fā)表

友情鏈接

文章目錄

首個(gè)國產(chǎn)音樂SOTA模型來了！專為中文優(yōu)化，免費(fèi)用，不限曲風(fēng)

福耀玻璃股份的最新股價(jià)，福耀玻璃股份股價(jià)動(dòng)態(tài)解析及發(fā)展前景展望

最新家政招聘信息，最新家政服務(wù)崗位招聘信息：保姆、月嫂、保潔員、家庭廚師等熱門職位全面開放！

尖山鎮(zhèn)招聘網(wǎng)最新信息網(wǎng)，尖山鎮(zhèn)招聘網(wǎng)最新信息匯總報(bào)告

肯德基價(jià)格表最新出爐！2023年熱門產(chǎn)品價(jià)格一覽，2023年肯德基最新價(jià)格表，熱門產(chǎn)品價(jià)格大揭秘