本文转载自中研院研究,泛科学为宣传推广实施单位。
采访林艺术设计林云安
自动化音乐展演的可能性
人工智能(AI)技术日新月异,不仅打败了人类的围棋高手,现在更是应用于医疗、交通、金融、金融安全等各个领域,遍布我们的日常生活。中央研究院信息科学研究所副研究员李肃给了人工智能另一项新技能:自动音乐演奏。“虚拟音乐家系统”用动画形象创造虚拟角色,可以和真人一起演奏,演奏动画和音乐伴奏可以自动生成。未来,VTuber(虚拟YouTuber)的运营背后可能不需要庞大的制作团队。只需专注于策划和脚本,让AI帮你一键生成!
李肃和研究团队开发的虚拟音乐家系统。图/研究,Unsplash(来源:李肃)
真实与虚拟合奏的贝多芬小提琴奏鸣曲
虚拟音乐人系统,这是李肃及其团队的最新研究成果,他将AI应用于音乐表演场景,并试图将其扩展到整个多媒体行业。这套系统已经在舞台上实际演示过,并与多个音乐表演团队合作过,包括:培思文教基金会、清大艾乐团、长笛演奏家、扣扣实验室等。
以近几年在李肃举办的演唱会为例,可以分为两部分。一个是现场钢琴师,在舞台上亲自演奏贝多芬第一乐章《春天》的伴奏部分;另一个是表演的特色:屏幕上正在演奏主旋律的虚拟小提琴音乐家。这种表演是人类和“虚拟音乐家系统”的巧妙结合。在现场钢琴家演奏的过程中,虚拟音乐家系统不仅负责合奏,还在屏幕上生成虚拟表演者的动画形象。
李肃和研究团队公开展示了真实音乐家和虚拟音乐家的合奏。图/李肃(虚拟音乐人)
不放枪、不抢拍的自动伴奏系统
虚拟音乐人系统的“自动伴奏”不同于卡拉ok的机器伴奏。播放器不需要伴奏音乐,而是由程序控制伴奏音乐与播放器配合,让播放器自由演绎音乐。但是为了配合现场演奏和现场演奏的不确定性,自动伴奏的操作必须快速准确。李肃指出,这也是研究中具有挑战性的部分。
自动伴奏系统的音乐检测器、音乐跟踪器和位置估计单元使虚拟音乐家能够准确地掌握真人的现场表演。
比如你想和别人玩,首先要确定自己能同步启动。这一重要职责由自动伴奏系统中的“音乐检测器”承担。“音乐检测器是用来检测音乐什么时候播放,但是现场会有其他声音。你不能让机器听到噪音以为演出开始了。李肃说,因此,团队会先将整个乐谱输入虚拟音乐人的自动伴奏系统,让系统在演出场地早早待命。一旦音乐检测器检测到乐谱的第一个音符,伴奏就会立即开始。
确认演奏开始后,自动伴奏系统马上有了另一项任务:跟踪音乐进度。因为每一个音乐人都会有自己的演奏风格,而且真人再怎么熟练,也还是有可能出现抢音或者延时等变数。跟踪音乐进程的任务由自动伴奏系统中的音乐跟踪器和位置估计单元来执行。
“音乐跟踪器采用多线程的在线动态时间规整算法,每个线程在最短的时间内进行计算和平均,找到最接近音乐人当前演奏速度的值。李肃解释说,追踪器捕捉到现场演奏速度并与参考音乐文件进行比较后,它可以猜测演奏下一个音符需要多长时间。至于位置估计单元,是用来估计目前已经弹了全谱的哪个位置。
虚拟音乐家系统跟踪真人的演奏进度,通过上述自动伴奏技术自动触发并演奏相应的部分。目前,该团队已将检测触发伴奏的平均延迟控制在0.1秒左右,但李肃的目标是将其降至“0.01”秒。李肃说,音乐心理学已经证明,即使是没有经过专业训练的普通人,0.1秒的误差听起来仍然非常明显。“0.01秒的延迟勉强能引起业余爱好者的注意;但面对专业音乐人,延时可能需要0.001秒左右才能打通。」
自动伴奏系统可以实时跟踪音乐进度,确定真正的音乐人目前演奏音乐的位置。图/李肃(虚拟音乐人)
训练 AI 自动生成虚拟音乐家动画
形象
现场音乐表演是影音的双重享受,所以虚拟音乐家除了拥有自动伴奏的「声音」,还需要拥有将表演动作形象化的动画「影像」。
真人音乐家演奏时,不论是情感的表达、与其他合奏者及观众互动、还有操作乐器的动作等,都存在个人差异,没有一套固定标準。例如拉琴的手势,10 个音乐家可以有 10 种不同的习惯。因此苏黎与研究团队採取的方法是:取得大量影音资料,让 AI 学习如何製造虚拟音乐家的肢体动作。
首先,徵求多位专业小提琴演奏者,穿上有标记点的特殊衣服,站在有动态捕捉装置的空间中,演奏不同风格曲目。苏黎使用的 3D 动作侦测技术,会侦测音乐家全身骨骼的关节点,作为虚拟音乐家动画生成的训练资料,并在训练动画生成模型的过程中,重点关注持弓的右手如何移动。
透过 U 型网路、自注意力机制等核心技术,来输出虚拟音乐家动态肢体影像。
在训练 AI 与生成动画影像的过程中,需要卷积神经网路来协助完成工作。苏黎团队採用的模型是 U 型网路(U-net),负责图像之间的转换,由编码图层传到解码图层。它的优点是速度快,而且输入输出格式相对容易设计,能一次输出大量资料点。「 U-net 可以一次输出单一时间的所有肢体骨架点,而非一个一个骨架点逐步输出。」苏黎说。
除此之外,还有自注意力(self-attention)机制,让 AI 学习判断肢体动作与音乐的相关性。因为肢体动作跟音乐都是序列形式,有时间上的关联性,假设真人音乐家某个动作在大鼓响起时一直出现,就会判定两者存在关联。之后自注意力机制在虚拟动作生成过程中,只要听到该音乐的大鼓声出现,就会发出明显讯号,认为此时要搭配相应的肢体动作。
简单来说,想要自动化生出虚拟小提琴家,不仅声音要到位,动画也要足够精準。音乐需要自动伴奏系统,即时追蹤真人演奏者的进度并触发伴奏;而相应的肢体动作,则有赖透过 U 型网路与自注意力机制,让 AI 在音乐现场了解此时要搭配何种动作。
进阶挑战:由听觉到视觉的跨感官转换
自动生成声音和影像后,研究团队还有一个更进阶的目标。「我们想让机器听到某一首歌,就联想到一幅画。但坦白讲,这种音乐到视觉风格转换(music-to-visual style transfer)非常困难。」苏黎说。当初有学生向他提出这个构想,想要训练 AI 将音乐与画面连结。只是这设定一开始就困难重重,因为最重要的训练资料几乎是无法取得。
AI 并非无中生有,机器学习有赖庞大、高品质的资料。
想要让 AI 学习听音乐联想画面,就必须要有真人示範,聆听音乐并画出心中所浮现的画面来当作训练资料。找人听音乐不难,但找来的人未必善于绘画;即使花大钱请画家参与实验,人少没有代表性,人多则风格又可能大相逕庭。「演奏动作还有迹可循,但大家听音乐脑补的画面都不一样,这样是没办法当作训练素材的。」苏黎点出其中关键。
研究团队决定退而求其次,改成在一组音乐跟一组影像资料库,透过两者之间共享的语义标注(labels),试图建立起对应关係。就像是电脑在连连看,如果配对起来共通点还算合理就成功。此时问题又来了,所谓「合理」实在难以界定,于是执行标準只好再一次降低,音乐与画面的共同标注越简单越好。
「虽然这跟当初想像中的差距非常大,但目前我们也只能用创作年代来当标注。」苏黎说,经由创作年代这个共同标注,电脑听到 1800 年的乐曲就会连到同样年代的图画。即使不符原本理想,模型建立起来后,在虚拟音乐家系统里还是可以发挥一些功能,像是为演奏会搭配符合音乐年代的背景画面,或色彩效果。
如何成为音乐资讯研究者?
在虚拟音乐家系统之前,苏黎与实验室团队(音乐与文化科技实验室)在自动音乐採谱方面的研究已经有丰厚成果,他们研发出开源工具《Omnizart》。
Omnizart》是音乐与文化科技实验室研究成果集大成的实用开源工具。
它具备当前全世界最多样乐器组合的分析功能,只要输入一段音乐,不管是钢琴独奏、多重乐器、打击乐,还是和弦辨识、节拍侦测,甚至是困难的人声处理,都会帮你分析。
「像钢琴这类乐器的话,是音乐进去《Omnizart》,生出 MIDI;而人声进去会输出成供电脑判读的数位资料。」苏黎解释,透过这些数字化的音讯数据能了解每一瞬间的音高变化,或是泛音、抖音等手法。研究自动採谱 AI 是因为,苏黎想探究如萧邦的夜曲等,这些百年来不断被重複演奏超过千百次的古典乐,在不同时代、风格迥异的音乐家手中究竟是如何被诠释。
而这次苏黎用 AI 创造虚拟音乐家系统,同样也是源于本身对音乐的喜爱与好奇。不是科班出身的他能弹奏钢琴、吉他,会吹小号,喜欢听经典的古典乐。对苏黎来说,兴趣是驱使研究向前的一大动力,他认为身为研究者必须要时常探索新的领域,因此常会要求自己不断接触世界各国的在地歌谣。
苏黎的下一步,是以现有虚拟音乐家系统为基础,加入更多细腻动作(例如脸部表情)的虚拟多人乐团。他也坦言目前自动伴奏系统、肢体生成还有风格转换这三项技术,都还有很大的进步空间。想训练电脑产生出更贴近真人演奏者动作的虚拟音乐家,必须花大量人力取得更多影片资料。「民众常以为不用多做什么 AI 就会自己学习,但真相是没有够好的资料什么都不用谈。」苏黎解释,AI 研究者的时间几乎都耗在蒐集资料上。
同时,研究室也在规划下一场发表。苏黎认为,实体演奏会是考验研究品质最好的方式。除了训练好模型,现场还有很多要克服的变数,像是很多音乐厅没有网路,团队必须将整场演奏会所需的模型,事先设计成用一台笔电就能执行。「总不可能演奏到一半,资料量太大电脑跑不动,然后要跑出去连网路吧。」苏黎笑着说,音乐会现场要面对很多做研究时不曾碰到的状况,是很刺激、有挑战性的任务。
AI 将是未来主流,是好、是坏终究取决于人心。
AI 出现之后,自然也面临许多批判,例如工作是否会被 AI 取代,甚至以 AI 操控虚假言论或用在军事用途,但苏黎觉得,主导权终究还是躲在背后操作的「人」。同样,随着虚拟音乐家系统日渐完善,真人音乐家是否担心未来饭碗被抢走?令人意外的是,苏黎说身边最期待这个系统的反而就是与他合作的艺术家,「别小看他们,艺术家可是一群勇敢、期待新事物、信仰未来的人。」
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/188485.html
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/188485.html