首页 · 会议 · 正文

中美AI音乐正面刚,谁是最强王者?中国AI音乐生成与国外同行掰手腕,竟成全球最新SOTA!

要说最近AI最火爆的细分领域,那就不得不提到AI音乐生成。

海外有「Suno」、「Udio」、「Stable Audio2.0」……国内目前只有昆仑万维的「天工SkyMusic」,但以上每一个AI音乐生成应用都是实打实的可上手。

那么,同为AI音乐生成领域最具代表性的产品,同样主打几分钟内即可生成高质量的音频内容,中外AI音乐生成模型究竟有何不同?哪些产品能力更被用户所看重?

接下来,就让我们以海外代表玩家「Suno」和国内代表玩家「天工SkyMusic」为对比,一探究竟,来一场实力对决吧!

首先让我们同时打开「Suno」」和「天工SkyMusic」。

目前Suno只有网页端产品使用入口,而「天工SkyMusic」则是在集成在手机APP端,这一点上来说,「天工SkyMusic」更适合国人的使用习惯。

先来说「Suno」,它的界面包括了Home、Create、Library、Ecplore等几个次级页面,Home相当于是「Suno」用户作品的“展示柜”,收纳了欢迎度较高的热门作品,以及各种音乐风格的作品合集,比如布鲁斯、说唱、古典等。点击Create即可进入创作页面。

而「天工SkyMusic」被收纳在「天工APP」的板块,同样具备用户作品展示、灵感指南等功能。相较而言,「天工SkyMusic」的界面更为简洁,创作入口更为直接。

从操作层面,虽然都是AI音乐生成应用,但这两款产品的生成逻辑有着一个极大不同。

「天工SkyMusic」让用户在曲库中选择歌曲或者是自己上传歌曲作为参考;「Suno」则需要用户用较为精准的乐理知识精准描述想要的音乐风格。

相较而言,「天工SkyMusic」对于即使没有音乐背景的小白用户,哪怕缺乏专业乐理、乐器等专业训练,也不妨碍用户精准“告诉”AI想要的是什么。

但在「Suno」的创作过程中,需要用户用自然语言准确地输入“提示词”,包括设计音乐风格相关的关键词描述,如: Pop、Folk、Acoustic,以及情绪氛围相关的词,如: Uplifting、Hopeful、Joyful……,这其实在用户上手之时,就抬高了门槛,比如该如何精准描述类似《以父之名》曲风的音乐?

「天工SkyMusic」对没有接受过专业音乐培训的普通人来说更加友好。绝大部分普通人对音乐流派的了解程度不深,对曲风的把握也不够精准,泛泛描述很难得到理想作品,找一首类似的音乐来做参考,能够比语言描述更好地表达对作曲的需求。相比之下,「Suno」可能更适合对音乐感兴趣的极客或者专业音乐人士来使用。

接下来,我们再来看看两款AI音乐应用自带的“AI作词”功能测评。

让我们以《洛阳铲》为题,看看「Suno」和「天工SkyMusic」分别给出了怎样的答卷?

整体来说,「天工SkyMusic」自动生成的歌词更符合古风效果,而「Suno」自动生成的歌词略显生硬,缺少了歌词应有的灵动与韵味。当然,让一款海外应用“说”中文已经是难为TA了,这题算附加题,不计分。

人声合成是最能体验AI音乐生成效果和音乐品质的维度。「天工SkyMusic」的AI人声合成,能够产生中文水平极高、发音清晰的歌声,展现出卓越的音频质量和逼真的演唱效果,已经达到业内SOTA水平!

在这方面,两相对比,Suno的中文演唱水平就明显差了很多,唱起中文歌来明显有一种老外说中文那味儿。下面这首Suno生成的音乐作品,确实在中文发音上既不清晰也不准确。

【用户用suno制作的中文歌】

值得一提的是,对于中文用户来说,「天工SkyMusic」还具备一个超级惊喜的功能——方言歌的创作!中国是一个拥有丰富方言文化的国家,各地的方言都有其独特的韵味和表达方式。通过提供「方言版」歌词,并使用具有方言特色的歌曲作为参照,「天工SkyMusic」就能生成出具有浓郁地方特色的音乐作品。

以用户生成的这两首四川rap和粤语情歌为例,不仅展示了方言歌曲的创作可能性,也体现了「天工SkyMusic」在中文领域的绝对优势。四川rap的热情和节奏感,粤语情歌的婉约和深情,都通「天工SkyMusic」得到了完美的复刻!

经过实际上手后的深度体验,相信中外AI音乐生成大模型大PK的胜负,已经有了明确的答案。

事实上,根据官方数据,在人声和 BGM 音质、人声自然度、发音可懂度等几个指标上,「天工 SkyMusic 」的综合性能都超越 「Suno V3」,成为最新音乐 AIGC 的 SOTA 模型,让中国的自研大模型技术第一次在 AIGC 领域领跑全球。

4000亿参数,国内音乐AIGC性能之王

「天工SkyMusic」的各方面能力都能秒杀国外音乐大模型,背后的技术底气来自哪里?

这要从多年前,昆仑万维的AI布局说起。2016年公司就收购了StarMaker,负责整个产品的研发及运维工作,并以此开展AI音乐的研究及布局。

今年2月,昆仑万维发布了天工2.0,已经远超行业水准,令人惊叹!如今,4月17发布的天工3.0可谓光速成长,其模型技术知识能力提升超过20%,数学、推理、代码、文创等能力提升超过30%,相当于是一个“文武双全”的博士!

在天工3.0推出前,市面上公认最厉害的大模型Grok-1参数为3140亿,天工3.0达到了惊人的4000亿!相当于这个“博士”的大脑储存了如此庞大的信息,并能以秒为单位进行处理。

天工3.0一经发布便成为全球最大的开源MoE大模型之一。在MMBench等多项权威多模态测评结果中,“天工3.0”的表现已经超过了GPT-4V,领跑全球,给人们带来全新颠覆式的人工智能体验。

「天工SkyMusic」便是基于“天工3.0”基座开源大模型,不仅实现全球领先,还做到了AI音乐生成领域的“全球首家公开技术架构”。

「天工SkyMusic」采用音乐音频领域类Sora模型架构,但为了得到更逼真、更专业的音乐效果,绕开了目前市面上主流的符号音乐生成技术路线,选择了一条对技术要求更高,资源投入更大的大模型技术路线。

在无数次研发实验算力算法投入下,「天工SkyMusic」成功攻克难关,探索出Encoder—DiT——Decoder的最佳方案。

正是在AI领域数年深耕,才能厚积薄发。「天工SkyMusic」的发布引爆音乐产业,让专业人士不再为高昂的音乐制作成本苦恼,让热爱音乐的普通人感受到音乐创作的乐趣,更是世界看到中国自研大模型在垂直领域的实力。

“AI会取代音乐人吗?”这类问题大家也不用再担心。未来,「天工SkyMusic」将成为中国音乐产业重要的创作工具之一,帮助音乐人创作更多精良作品,提高效率。昆仑万维也将持续优化、迭代产业,推动中国AI及音乐产业蓬勃发展。