AI音乐:打通技术新路径大模型时代加速发展_第1页
AI音乐:打通技术新路径大模型时代加速发展_第2页
AI音乐:打通技术新路径大模型时代加速发展_第3页
AI音乐:打通技术新路径大模型时代加速发展_第4页
AI音乐:打通技术新路径大模型时代加速发展_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、生产要素分析AI音乐生产要素包括底层硬件、数据集、技术范式,其中硬件有成熟的解决方案,国内外大型云服务商均已推出了针对I模型训练的GPU云服务;优质训练数据获取成本高,音乐类数据成品和标注工具商还在发展早期,而关键的MIDI数据归属于版权方,难以从互联网获取,市面上可用的音乐数据集相比文本和图片数量较少;技术理论加速发展,谷歌等科技公司入局,在算力加持下探索新的解决方案。应用方面,目前已有的I音乐产品包括端到端产品,例如IVA,网易天音等;部分公司开发I音乐应用主要用于内部降本增效,降低配乐成本,比如抖音,微软等。图1:AI音乐产业细分各公司官网,证券技术路:百花齐放,算力升级使暴力求解成为可能传统路线:基于音符逻辑的算法音乐基于音符逻辑的算法音乐长期存在,但并非严格意义的AI工具。I生成音乐的概念早在80年代就已出现,从辅助创作、帮助生成的角度出发,早期计算机音乐大多基于音符逻辑,学习乐谱、通过马尔科夫链等成音符内容,已广泛应用于业界,产品包括YAMH等推出的编曲键盘,Bad-naBox软件等。这类技术的特点是生成逻辑更接近音乐家的思维方式,主体是计算程序,输出的是不具有混音效果的纯音谱,并非是真意义上的I产物。AI时代:神经网络架构的音乐生成诞生多流派2015年后深度学习学科快速发展,AI音乐的生成诞生两种路线:“小节-旋律-多音轨结构化生成:作为循序渐进的生成方式,需要引入音乐家系统模型训练的算力要求较低,长期以来是学术界和业界主流,诞生了诸多小而美和专业化的I工具;放弃结构化信息从音频到音频的直接生成二种方式随着大模型的发展硬件推动算力解放提供了一种全新的思路例如将NP的情景演讲生成模型套用到音乐数据上目前已经迭代了23代,对算力求高,过程更加不可控,但能够一步解决混音、音色的问题,潜力巨大。图2:AI生成音乐的两种思路数据来源:证券基础的生成理论方面,通用的神经网络音乐生成架构包括RNN、VA、AN、ranforers等,一套成熟的AI音乐工具往往是多个模型的融合嫁接。随着深度学习学科发展,2015年后涌现了一批AI音乐初创公司,计算机音乐和进入深度学习时代。生成音乐用到的神经网络生成模型包括VAE、GNs等,近年来利用Traorers等NP领域流行的范式进行复调音乐生成也有不少成果例如谷歌的AdioMMuicM等发展至今,各路I音乐模型在调优与算力加持下,均有能力产出长时间(60s左右)连贯音频。海外行深度图3常用音生成N架构斯坦福公开课,谷歌大脑,《AComprehensiveSurveyonDeepMusicGeneration:Multi-levelRepresentations,Algorithms,Evaluations,andFutureDirections》,证券不同生成场景采用的模型也各有侧重,生成旋律方面,VE模型和GN模型较主流,应用最广泛;生成复调音polpony方面VENN使用较多近几年Traorers生成复调的研究成果越来越多生成多轨音乐(lt-trackuic)方面,通常是多种模型叠加使用,VE、Traorers近几年技术更新较快。海外行深度图4:各生成模式的模型进展梳理《AComprehensiveSurveyonDeepMusicGeneration:Multi-levelRepresentations,Algorithms,Evaluations,andFutureDirections》,证券①变分编AE)最的E模使用ncdedecoder架通重输入产潜空(antc潜空是压缩据多空,中最似元彼最近在E中编器似后,码参化似然,验似近由别具λθ的N参数用编器解器。验断通最化证据界EBO来小编码或似验真后验的ubacebe散度来完的梯度通过新数技计得到E模有种体,如βE它构损中加惩项,以改潜空分。海外行深度图5MsiAE结构FomAtfcaleulNtorksoepanngorMucneain–History,ConceptsandTrends》,证券②生成抗络N)N由个N组生成型生器G别器D生器输据上习布行练是为让别最化正确签配训样和生器成样,种训思可理为D和G循Godeow等出的人小大弈描述生器鉴器以由的N层成例如多感器P、M或积经N。③anoesanoes在NP应中使较,在NP在V型表良aoer可以用作回归模,如T它们于成务anoes背后的本想注意机,意与馈层的使anoer的Ecoder和Decoer成区于由EcdeDecoder成纯AuEncoer型。ooleMusicM:基于NP语境学习思路的音乐生成谷歌在2023年2月推出全新的I生成音乐模型MsicM,实现端对端文字转音乐,实质是基于一系列NP技术对音频数据的暴力破解。目前产品官网推出三种应用模式,包括(1)音乐生成、(2)文字转音乐(3)长文字生成长音频的StorMode。海外行深度图6MsiM三种生成模式MusicLM官网,证券模型参:和前身AdioLM(2022.0推出)类似,MsicM的核心2vBET组件由Traorers的decoder堆叠而成,模型共24层,16个注意力头,嵌入维度数为1024,dropot系数为0.1,加上相对位置嵌入机制,估算得每阶段的参数量约4.3亿。各组件功能:MicM使用Soudtrea、2vBET、Muan三个模型实现其功能,其中(1)SodStream用于音频数据离散化,生成声学标记单元(adiotoe),用于连续音频变量的升维及降维处理,核心方法是残差矢量量化(esidalVectorQatization,VQ);(2)2vBET:实现情景内容输出,结合对比学习和MM框架,前者将输入的连续语音信号离散成有限的可辨别的语音标记集,后者通过解决消化离散的标记的掩蔽预测任务来学习上下文的语音表征;(3)Muan:完成音乐和文本的嵌入配对,用音乐文本标记数据训练配对机制,以应对标注数据配对稀缺的问题。图7谷歌MsiM——基于unSta、w2BER、MLn三个模型实现《MusicLM:GeneratingMusicFromText》,证券数据集训练:Man是预训练模型因为已解决了文本音频嵌入配对的问题,模型只需对纯音频数据进行训练,模型训练采用公开的MA数据库中的500万余共28万小时的24Hz音乐片段作为训练数据,对海外行深度SodStream和2BET进行训练。音频数据进行了30crp/10秒的数据采样,作为对照,前作AdioM仅在3秒的切割上进行训练新的数据切割方式使得模型精度得到提高计算FD指标MuicM在FADVGG指标上的表现优于Mbert和iffsion在FADTRIL指标上MicM的表现与Mbert相似比ifuion好用KD和MC指标衡量,MicM的表现均更好。图8Msis数据集测试下的模型精度对比《MusicLM:GeneratingMusicFromText》,证券模型评:验证NP语境分析对于音频数据的可套用性,但仍有大量针对音乐的适配和改进工作等待进行。MicM对比前作AdioM实现了端对端的文本转音频(原仅能实现音频片段转音频),多模态应用更进一步;对比其他文本转音频的生成工具(例如Riffio、Mbert),模型精度有所提升,在较长音频的生成上优势更明显。对模型的争议集中在,模型采用NP语境分析的方法对音乐数据进行处理,而非针对音乐开发新的理论模型,推演逻辑本身难自洽;完全的WVtoWV生成机制过于黑箱,不符合传统的音乐制作习惯,难以成为真正的生产力。针对这些问题,可改进的方向有:(1)给输入的音频数据划分更多层次,进行更精细的切割;(2)对模型分模块训练,让音乐生成过程更贴近实际创作,而非完全依赖MM的逻辑生成音乐。(3)丰富训练数据集,目前的训练数据集为500万余个音乐片段,训练数据的增加必然会提升模型训练的效果。这些改进意见并非难以做到,根据谷歌在AI音乐方面的进展更新频率,我们认为从技术层面看,谷歌团队有实力在未来12年内推出更强大的音乐生成I模型。数据集版权标注曲库是核心稀缺资源AI音乐虽然发展历史悠久,但爆发滞后于AI图片、文字,我们认为一大原因是上游高质量数据集的稀缺。结构化音乐数据集的获取,以及获取后如何按照需求标注处理,是I音乐目前面临最直接也最难解的问题。用于I模型训练的数据可粗略分成几种类型:标签型数据(用于训练推荐系统、模型检验等,互联网上有海量此类数据),Wav/3等PM编码格式的数据(最常见的音频储存方式),音乐制作过程中保留的MDI数据(归属于版权方,无法从互联网得到)。不同于图片和文字,混音后输出的音频会模糊掉大部分作细节,而文本、图片的信息损失相对较小,所以MIDI数据对于结构化的音频生成至关重要。海外行深度图9音乐数资源分布IFPI,百度图片,证券目前主流模型训练数据来自MA等公开免费数据库。根据公开的模型介绍及论文,大多数音乐模型训练使用的是免费公开的音乐数据资源比如MicM使用的MMuicVE使用的MD等歌曲数量通常在百万级以MsicVE为例模型用到了1.5百万数据量的LMD数据库另外还用到4百万的单独旋律数据和3百万的单独鼓声数据经过调查我们发现公开数据集的音频种类涵盖往往不全数据集内容多以BGM典乐、游戏音乐等为主,流行音乐数据尤其难以获取。表0常用数据集整理模型训练曲库数据量数据内容格式MuicMMA5m纯音乐,avMuicEakhMDatast15m纯音乐MDIMuicasmrJBhaeianCmpttin253/巴赫四合唱谱数,MDI人类演数据,MDI各型发论文中建投证券部分数据标注及人工智能公司已涉及音乐数据业务。上游数据公司方面,国内成品音乐数据集和数据标注公司相对较少音频ITTS等垂直领域数据公司部分涉及音乐类数据业务此外大部分众包数据公司均可以提供定制化的数据集制作服务,可按照需求对音频或MIDI数据进行人工标注。海外行深度表1数据采集标注公司音乐类数据开发情况(截至2.)公平台 相关产品百度智云 暂无阿里众包 暂无京东众智 暂无海天瑞声 歌曲数库、色库龙猫数据 互联网业数标注云测 暂无数据堂 暂无标贝科技 歌声合、情合成慧听数据 音乐数制作注,谱标、MDI制作各公司官网,证券例如海天瑞声有小样本的歌曲和音色库在公司官网上搜索歌声数据能够找到十余个相关成品数据(要用于TT);垂类数据公司中,慧听数据提供专业的音乐数据集标注制作服务,公司官网“数据服务”下设有音乐数据制作标注业务,包括音乐音频制作、哼唱识别、歌曲曲谱和内容标注、歌曲人声旋律MIDI制作。图2海天瑞声音乐相关数据库(S为主) 图3慧听科技音乐数据集公司官网,证券 公司官网,证券高校推进技术研究,部分机构以产学合作方式开放其成果,例如北大产业技术研究院的音乐情感自动识别及自动标注系统。高校方面,北京大学产业技术研究院以合作开发、技术许可等方式提供其研发的音乐情感自动识别及自动标注系统的使用权:该系统采用多模态情感回归的方法,实现音乐情感的自动标注,并通过音乐情感词作为中间桥梁,实现音乐情感维度信息到情感类别的映射,间接实现了音乐情感的分类,因此系统能够同时满足对音乐情感维度信息和类别信息自动标注的需求根据官方介绍已经实现(1完成全部关算法的研究开发(2完成全部关键算法的研究开发(3在4000首音乐歌(音乐1700首歌曲2300首集上完成情感学习模型的训练(4在4000首音乐歌(音乐1700首歌曲2300首集上完成情感学习模型的训练。图4北大音乐情感标注系统基于维度情感模型的检索 图5:北大音乐情感标注系统基于色彩和情感词的检索北大产业技术研究院官网,证券 北大产业技术研究院官网,证券二、公司动态2015以来初创公司AI音乐oB业务开始涌现,大厂入局加速发展:015年后初创公司Jcdec、AperMuic及IVA开始推出I成品音乐,客户会告诉计算机他们想要多长时间的曲目以及其风格和情绪的其他信息,然后人工智能会吐出客户愿意接受的曲目,供客户选择。另一商业模式开创自来自初创企业Aadeuode,该公司最初开发的是人工智能作曲辅助工具。在2019年它推出了一个名为EoeMic的免版税音乐库,人工智能生成的曲目由工作人员挑选。另一个例子是柏林的初创公司Lodl,它最初的产品是人工智能rei。当遭遇版权方不愿提供授权的困难后,公司改变策略并建立了一个名为odlAIMicStdio的工具,IMuicStdio同Jedec、AperMuic最初的目标基本一致,即为视频博主、游戏开发商和其他企业提供免版税音乐创作。表6:I音乐发展大事件2I音乐初创公司udk在成立2ptiy收购数分析司chst和diniic2ogdepmid出ant技,用于I音乐创作2VA在卢森堡成立,至今最有影力的I音乐公司之一2I音乐初创公司mpusc成立2pMusc成+轮融,与民K歌合作落多项用2Jukdk被字跳动购2美国手anuthn作I歌曲《Bak》,推出首张I作曲专辑《MA》2网易资VA2人工智歌曲赛SnCnts(C)举办,第届冠为澳利亚队cnnaey2I音乐游戏公司pah成0万美元资2瑞典I音乐公司tamny获0万美元资2平台型品imi完成B融资,ptiy参与投资2第三届C举办,与尼音公司深合作参赛队过0个2环球音、微、迪尼等资I初创公司ndul共0万元23谷歌发最新端对文字乐成模型usc23I歌曲《atnMle》iktk击超万,发版方环乐声明知乎@tuoerye,百度百科,各公司官网,证券版权方流媒体互联网公司版权方:积极投资AI音乐,索尼音乐依托索尼CSL基础研究能力领先。音乐版权市场的主要竞争者是三大唱片厂(根据IFPI,三家版权歌曲数量合计市占率接近90),其中环球、华纳是老牌音乐娱乐公司,业务完整涵盖录制音乐、版权管理、授权商品、及视听内容等核心上游环节,在I音乐领域主要以投资的方式进行布局。索尼音乐依托母公司索尼强大的机器学习基础实力及硬件研发能力,发布了大量前沿研究成果,并推出了FloMacies等实验性的I音乐商业化工具。表7唱片公司I音乐相关动态梳理公司名称事件时间备注环球音乐投资并购234投资I音乐初创公司udu百万美级(M)应用-推出I音乐识别检索能招聘-发布数分析、R关岗位华纳音乐投资并购283收购I技术公司dtne(M)投资并购223参投ii合创人创的I音乐公司icr,该轮总额0美元招聘-发布数分析、R关岗位索尼音(索研发2索尼CL放出制作的Bats风的I歌曲尼)研发2成立新构n研发2推出乐I工具oMachns,含从鼓、贝、钢伴奏生,到多轨的混合研发2开发出um,一款I生成鼓声工具与tibg合作新abne研发2研发I声音分离技术招聘-发布量I相关岗位UMG、WMG、SONY官网,证券流媒体平台:聚焦音频识别及播放行为领域,长期将受益于内容费用的下降。流体平台的优势在音频修复转录、智能识别和用户行为等领域,Spotify的RD部门长期致力于机器学习研究,在I音乐领域有丰富的研究成果,包括音频转录、鼓声转录等。TME则推出天琴实验室,截至2023年累计发布10余篇国际顶会论文,500项专利。网易的I基础研究始于2011年,云音乐的I日推系统是其核心竞争力之一。长期看,通过I协助音乐人创作,平台方能够聚集更多内容资源,长期有望缓解版权成本压力,例如网易在2023出的I音乐工具网易天音。海外行深度表8流媒体平台I音乐相关动态梳理公司名称事件时间备注ptiy研发-设有机学习发团,研领涉及音数据理、乐创、户行为究等研发2作为赞商在MR上开源I音讯研究架i,助力大型频据集生发展投资并购2参投I音乐公司imi,轮融额0万元投资并购2收购I语音平台nnic应用2与pnI合作应用232推出JME(腾)投资并购2投资音识别术商udn,该轮资额1亿元研发2Q音乐旗听歌曲团获了Mix音频纹大冠军研发2独创的iciMd(M)术也打了预识别(atnsrdicin)世界纪录,力潜好歌掘投资并购2与华纳投资R监测司nstumntal研发2成立天实验,专音视相关I,截至23计布0篇国际会论文,0专利研发2推出I音乐辅助创作件MEtdio云音乐网投资并购210万美战略资I音乐公司VA易)研发2发布全路I歌曲《醒来》研发2推出I音乐创作工具易天音研发-网易人智自1年开始注于人智能究,务公泛乐业务各公司官网,证券互联网企业:探索前沿科技推动降本增效。微软、谷歌、苹果、字节等公司均在I音频领进行了投资并购及专利储备。微软亚洲研究院2021年开源I音乐研究项目Mzic;谷歌2023年2月推出最新的音乐模型MsicLM;苹果2022年收购初创公司IMic,购入专利;字节发布自制的钢琴曲MIDI数据集,推出I音乐应用海绵乐队。除了纯粹的学术研究外,各公司将开发的I工具应用于主营业务,帮助降本增效,例如字节在短视频BGM生成方面积极布局,微软申请了游戏I配乐的专利等等。海外行深度表9其他互联网科技公司I音乐相关动态梳理公司名称事件时间备注微软研发2微软亚研究开源I音乐研项目Muc研发2注册I作曲专利谷歌研发2推出Manna项,尝用I来生成音乐研发2Mana出新具nt,一接受0万乐器音训的神网络研发2推出音生成型ui研发232推出音生成型Muic投资并购232投资I工具公司nthc约3美元投资并购234投资I初创公司ndu,百美元级苹果投资并购2ppMusc收音乐析司saii的术投资并购2收购初公司Music字节跳动投资并购2收购I音乐初创公司kdk应用2BtMuse在抖推出I歌曲《想上班播放近1亿研发2发布全最大古典琴数集iatMD-iano应用2发布I音乐创作pp绵乐队招聘-招聘深学习音乐音频叉域专家科大讯飞研发2基于身I技术推出讯飞音牌,涉唱歌成、歌变和歌评测等各公司官网,证券商业化成对比A:专业音乐创作辅助产品,提风预设和曲到曲生成AAAcalnegenceualA2016卢堡成,立期海的古乐练经网路,发了一专创世纪Gne,后慢加各音风的练以作更元音。初期AA主针客求创客化乐例游戏景乐广配、卢堡庆演的题曲以及歌客化行等。年AA的开者经立许多AI模型例递神网络、积经络进算法,们为AA来音领的造。提供预设生成、曲曲成两种模式:AA户提两音创方。第种使预训练的“设式,些基于部心作各数据(调级、奏模和律等要乐特征成。二:上传歌来响作程,创出有似乐特但同曲,为上传DI和传udo两种式传DI模式下软会析乐构、性主律伴等,作为据作一与曲风类的新乐使用还以创完后做些整上传udo则是一持DI以外的式行到风模。海外行深度图0:AA产品结构AIVA官网,证券网易天:低创门槛,另增歌声与词功能网易音云乐的AI音乐作台于22年4月2正上可以网或移端使用音生同有格预和到生两方式功包)键渲:需输一关键词者弦向就以得一完的曲曲。可选不的格、度调等数定制自喜的果(2分轨D:在成后,以编进微和导。以择出轨或者DI文件分件包了个器单音轨方后制和音;DI文件含编的数据息(3编和享:以网端者机端用易音在编辑,编进剪淡入出音调等作。对比AA网天除音乐成,合TS提供声成合NP模型供词作。产品体成AI写歌I编曲两个块提大的预模,作由高。平针无理识的创者供简教,大降了乐作门槛。图1网易天音产品结构网易天音官网,证券谷歌Mgenta:开源项目,面向熟悉代码的音乐家Maenta是谷歌旗下一个开源研究项目,基于tenorlo,探讨机器学习在创作过程中作为工具的作用。Maenta为熟悉代码的音乐家们提供丰富的开源资源,主要针对作曲领域,未提供作词和歌曲合成。MaetaStdio是bletonie(一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论