本文对国外部分音乐人工智能/音乐科技科研机构的科研项目与教学课程设置作简要介绍，包括英国伦敦玛丽女王大学（Queen Mary）的数字音乐中心（C4DM）、西班牙巴塞罗那庞培法布拉大学（UPF）的音乐技术研究组（MTG）、美国斯坦福大学的音乐与声学计算机研究中心（CCRMA）以及法国的声学/音乐协调研究所（IRCAM）。
本文写于2021年1月，资料均来自各机构官方网站。

C4DM

英国伦敦玛丽女王大学的数字音乐中心（Centre for Digital Music，简称C4DM）是一个世界领先的音频音乐技术领域的多学科研究小组。自创始人员于2001年加入玛丽女王大学以来，该中心已发展成为英国首屈一指的数字音乐研究小组。
C4DM属于伦敦玛丽女王大学的电子工程与计算机科学学院，其主要的研究领域包括音乐信息检索、音乐信息学、语义音频、音乐语义网、音乐音频数字信号处理、音频工程、机器听觉、声音合成、音乐感知与认知、增强乐器和声音交互设计。

科研团队与项目

一、C4DM的智能音频工程研究团队致力于智能录音技术、高级音效、现场声音制作技术、混音格式转换技术以及音频编辑自动化技术的开发，目前招收博士研究生。其主要研究项目包括：

Web端音频评估工具：可进行基于浏览器的听觉测试；
开放式多轨测试台：为多轨音频提供单一化、中央化的资源，以便进行浏览、过滤和搜索；
自动混音：实现实时自动多轨音频制作和混合；
声音合成：使用算法生成声音，是在电影、多媒体、声音装置和游戏中的重要应用；
空间音频的制作与再现；
音频混合反向工程；
音频瞬态修改；
现场声源分离；
手势控制的多声道音频混合；
智能动态范围压缩；

http://c4dm.eecs.qmul.ac.uk/audioengineering.html

二、C4DM的增强乐器实验室成立于2011年，由Andrew McPherson领导，包括来自C4DM的成员、合作者以及伦敦玛丽女王大学媒体和艺术技术计划的博士生。实验室会定期开展音乐会，以展示乐器、装置和设计等。其主要研究项目包括：

电磁增强的原声钢琴；
具有电容式多点触摸感应的钢琴键；
小提琴手势感应；
无障碍乐器；
超低延迟交互式音频的嵌入式平台；
大型数字乐器设计；
数字风笛；
新型弦乐器；
……

http://instrumentslab.org/index.html

三、C4DM的声音交互设计实验室致力于探索从交互艺术到实时数据声音化、可听化的新方法，由Nick Bryan-Kinns教授和Tony Stockman博士领导。声音交互设计是指设计和评估将听觉优先于视觉的交互系统，该实验室主要研究项目包括：

交互式实时音乐系统；
交互式数据可听化；
设计和评估听觉展示的方法；
音乐作品的交互设计；
跨知觉模式互动；
分布式音乐制作系统；
声音游戏；
交互式音景；
……

http://isam.eecs.qmul.ac.uk/about.html

四、C4DM的机器听觉实验室开发各种方法来理解自然声音、日常声音和录制的音乐。其中，“机器听觉”是利用信号处理和机器学习从声音中提取有用的信息。该实验室由Dan Stowell和Emmanouil Benetos共同领导，成员来自电子工程与计算机科学、生物化学和数学科学三个学院，目前招收博士研究生。其主要研究项目包括：

用于内容监控的下一代音乐识别算法的开发；
使用机器学习分析鸟声监测数据；
数据驱动的数字修复音频档案质量预测；
用于音频分析和检索的机器学习框架；
声场分析中的声环境识别；
复调音乐录音的自动转录；
音乐信息处理；
……

http://machine-listening.eecs.qmul.ac.uk/

五、C4DM的音乐信息学研究团队通过使用数字信号处理、机器学习和语义网来探索智能分析音乐数据的新方法，同时帮助用户找到他们想要的音乐。该团队由Simon Dixon博士领导，目前招收博士研究生。主要研究项目包括：

Sonic Visualser软件：用于音乐录音的可视化、分析和注释，包括旋律提取、和弦识别、节奏分析等多个功能，是C4DM推出的最为广泛使用的软件工具；
音乐信息的中层描述符：包括和弦、调式、音符、节拍、音色、结构分段、旋律等；
音乐信息的高层概念：包括类型、情绪和情感，用于音乐分类、检索和知识发现；
用于智能编辑的音乐语义分析；
音频数据和音乐相关信息的连接；
具有室内脉冲响应的交互式听觉；

http://c4dm.eecs.qmul.ac.uk/musicinformatics.html

六、C4DM的音乐认知实验室旨在研究人类听众和表演者处理和参与音乐的方式。这项研究跨越了广泛的心理学领域，从低层次的处理过程，如听觉流分离，到高层次的概念，如情感诱导和音乐偏好。该小组利用了广泛的研究范式进行研究，包括计算建模、神经成像和认知心理学，由Marcus Pearce领导。其主要研究项目包括：

基于概率预测和统计学习的听觉期望计算模型；
拍手音乐应用：通过基于一种拍手音乐的游戏APP来调查节奏制作能力的学习过程；
在科学博物馆进行实时科学观察：观察和分析志愿者对各种音乐的看法与认知；

http://music-cognition.eecs.qmul.ac.uk/

七、C4DM的声音合成研究团队使用算法生成声音，包括模拟形式和数字形式，并将合成的声音应用于电影、多媒体、游戏和声音装置。声音合成是一门获取、创造和操纵声音以达到预期效果或情绪的学科，而C4DM的声音合成涉及多个主题，包括音频工程和增强乐器，研究者一方面寻求和发现新的合成技术，另一方面增强现有方法来适应新的应用。主要研究项目包括：

基于云的实时音效服务：为声音设计师提供基于声音合成的实时音效服务以简化工作流程；
使用传感器进行游戏音频制作：该项目创建了游戏音频的快速成型环境，将程序音频模型部署到嵌入式硬件上，从而可以使用物理传感器从表演中捕获相应参数；
基于物理模型的程序音频：开发现实的、可控的、实时的程序音频技术，以使用物理模型来合成声音纹理（例如风和雨）；
通过感知评估改善声音合成；

http://c4dm.eecs.qmul.ac.uk/soundsynthesis.html

教学

AIM（全称UKRI Centre for Doctoral Training in Artificial Intelligence and Music）是伦敦玛丽女王大学和数字音乐中心针对音乐/音频技术和创意产业开办的博士研究生项目，学生将攻读为期四年的博士学位。

AIM旨在培养将人工智能、机器学习和信号处理最先进的方法与跨学科的艺术感受能力相结合的新一代研究人员，在英国创意产业和文化部门提供突破性的原创研究。每位博士研究生将拥有个性化的研究计划，同时包括专家授课模块、行业实习、技能培训以及与文化合作伙伴共同创作等。
AIM的研究重点围绕三个高度整合的主题进行：

音乐理解：包括机器听觉，智能信号处理以及数据/知识驱动的音乐内容建模与分析方法；
智能乐器和交互界面：包括用于音乐表演、制作、聆听和教育的嵌入式智能硬件设备以及在创造性环境中的人机交互AI应用；
计算机创造力：包括生成音乐作品，自动伴奏系统以及用于音乐表演和辅助创作的系统。

AIM项目分为四个主要部分：

高级教学模块，1~2年级完成
行业实习，2~3年级完成
研究人员发展培训，持续4年
博士生研究项目，持续4年
从第一年开始，将为每位学生制定个人发展计划（PDP），包括教学模块、课程和各类活动。制定时会考虑学生研究主题的主要目标与其学术背景，预计学生将在第一年完成四个核心模块，第二年完成两个专业模块。
其中四个核心模块为：机器学习，研究方法与创新，音乐信息学，音乐和音频编程；
专业模块包括：音乐感知与认知，音乐与语音建模，大数据处理，录音与制作技术，数字音频效果，音频音乐深度学习，人机交互设计，语义网，计算创意与人工智能；
同时提供多个相关模块的商业和企业家课程。
PDP将具有足够的灵活性，一方面解决学生学术背景中的空白，另一方面也避免重复修读部分课程。

https://www.aim.qmul.ac.uk/

MTG

音乐技术研究组（Music Technology Group，简称MTG）来自巴塞罗那庞培法布拉大学（UPF）的信息与通信技术系（Dept. ICT），主要对音频信号处理，音乐信息检索，音乐接口和计算音乐学等主题进行研究。MTG希望为改善与声音、音乐相关的信息和通信技术做出贡献，在国际层面上开展有竞争力的研究，同时将其成果传递给社会。为此，MTG致力于在基础研究和应用研究之间找到平衡，促进跨学科方法的应用，这些方法应融合科学/技术和人文/艺术学科的知识和方法论。

科研团队与项目

MTG的研究结合科学、技术和艺术方法来理解、建模和生成声音和音乐信号，在许多具有重大社会和经济影响的战略领域做出贡献：

艺术创作：开发旨在增强人们创造力的工具；
文化保护：理解，获取和保护世界音乐遗产；
教育：开发技术来增强音乐实践，从而促进音乐学习；
身心健康：研究音乐在个人、社交环境以及日常例行活动中作为调节器、感应器、陪伴者或增强器的好处；
可持续发展：分析、描述和监测声波环境，为保护和改善环境做出贡献。

MTG的四个实验室

一、音频信号处理实验室
该实验室通过结合信号处理和机器学习方法来进一步理解声音和音乐信号，结合数据驱动和知识驱动的方法，解决与自动音乐描述，音乐推荐以及音乐教育相关的实际问题。由Xavier Serra领导。
在数据方面，维护了许多与研究和实际应用相关的语料库，包括Freesound（海量音频数据库）、AcousticBrainz（原始声学信息库）和Dunya，并从中为特定的研究任务创建数据集，例如FSD数据集（用于声音分类），CompMusic数据集（用于音乐分析）。
主要的研究项目包括

Essentia库：包含用于分析各种声音和音乐信号任务的方法与算法，从低级的音频信号表征到高级的分类任务，已广泛用于研究和商业应用；
MusicCritic：一项用于音乐教育的服务，可评估演奏的音调、节奏和音色；
Nextcore：新一代音乐监听技术，用于解决音乐版权问题，研究如何对特殊情况下的音乐进行识别，例如录音质量较低、有背景声音或经过Remix的音乐等；
MusicalBridges：基于音乐理解、计算音乐学来开发交互式工具帮助听众理解和欣赏不同国家地区的音乐文化；
AudioCommons：音频共享倡议项目，旨在促进开放音频内容的共享使用，并开发技术以支持相应的内容存储库、生产工具和用户音频共享生态系统；
CompMusic：从各国各地区不同的音乐文化角度应对当前音乐信息研究挑战，用计算手段研究印度音乐，土耳其音乐，中国京剧，北非音乐等；
DTIC-MdM战略计划：数据驱动的知识提取；

https://www.upf.edu/web/mtg/audio-signal-processing-lab

二、音乐信息研究实验室
该实验室研究主题为声音和音乐描述，音乐信息检索，歌声合成，声源分离，音乐和音频处理。在MIR领域探究自动生成“描述符”以捕获嵌入在音频信号中的声音或音乐特征。由Emilia Gómez领导。
主要的研究项目：

Trompa：在线音乐公共领域档案馆，通过以用户为中心的共同创造来大规模丰富和普及公共音乐遗产；
音乐和记忆研究：基于Web，提供对于恢复阿尔茨海默氏症患者日常听力有帮助和对于其治疗有意义的音乐；
Melodia：旋律提取插件，根据复调音乐信号进行基频估计；
HPCP：chroma特征提取插件；
基于深度学习的歌声合成；
音乐中的歌声与打击乐成分的提取与分析；
音频与音乐符号自动对齐；
……

https://www.upf.edu/web/mtg/music-information-research-lab

三、音乐和多模态交互实验室
该实验室专注于多模态交互技术的研究以及其在音乐创作中的应用。当前研究结合了人机交互、音乐信息检索、机器学习和生物计算等领域的技术，不仅应用在音乐创作领域，同时涵盖了虚拟现实、教育和健康等横向应用领域。由Sergi Jordà领导。
主要的研究项目：

Reactable：一种具有简单直观设计的新型电子乐器，允许表演者通过操纵桌面上的有形物体来控制系统；（该乐器基于半透明的发光圆桌和一些圆盘，通过旋转圆盘并使其相互连接，表演者可以组合出不同的元素，例如合成器，效果器，采样循环等。）
reacTIVision：一个开源的跨平台计算机视觉框架，用于快速可靠地跟踪附着在物理对象上的基准标记以及多点触摸手指跟踪；
RAPID-MIX：面向音乐，游戏和电子医疗应用的创新人机交互产品；
多用户多任务的手势识别
用于隐式生理计算的声波交互设计

https://www.upf.edu/web/mtg/music-and-multimodal-interaction-lab

四、音乐与机器学习实验室
该实验室专注于音乐技术，人工智能，深度学习和神经科学的交叉领域，由Rafael Ramírez领导，其研究兴趣主要在于：

对音乐表演中的“表达”进行建模：研究在富有表现力的音乐表演中音乐家如何操纵声音属性（例如音高，时值，音色）以诠释和表达出他们对于音乐作品的理解，并对其量化和建模；
情感与脑机接口：研究音乐与大脑情绪的关系和在人机交互中如何使用音乐改善用户的健康状况和生活质量；
Future Songwriting：开发数字工具以支持在校学生创作和制作自己的歌曲；
TIMUL和TELMI：从教学和科学两个角度研究学习乐器的方法，将多模态交互式方法用于音乐训练与学习；
MUSA：无障碍音乐播放器，由眼动仪或头部跟踪器设备控制音乐的演奏与播放；

https://www.upf.edu/web/mtg/music-and-machine-learning-lab

五、实验室共同参与的项目

Musical AI：加强对音乐的理解，开发基于AI的模型和工具来帮助听众更深入理解和欣赏音乐，并开发基于AI的模型来帮助音乐学习和音乐创作。该项目主要从以下四点入手：
a）混合人机智能：研究在数据驱动的音乐应用中结合人与机器智能的最佳策略，通过以人为中心的人工智能方法提升听觉效果与体验；
b）自动发现音乐：基于无监督的方法，从音频信号开始，在不同的语料库中发现表征不同音乐实体(如艺术家、作曲家、形式、风格等)的相关旋律模式；
c）由技术增强的音乐学习：基于有监督的方法，发现优秀的音乐表演练习模式，并利用这些模式在学生练习时给予反馈，以促进学习过程；
d）辅助人类音乐创作的机器音乐智能：同时适用于专业音乐人和业余爱好者。
MIP-Frontiers：面向MIR研究人员的跨学科、跨国和跨部门的欧洲培训网络，旨在培训新一代音乐信息处理的研究人员。

教学

一、UPF信息与通信技术系博士：
博士学位课程为期3年或4年，学生将接受MTG教员的指导，对声音和音乐计算领域进行系统的了解，学习所需技能和必要的研究方法，从而构思、设计和实施严谨的、个性化的实质性研究计划。

二、UPF信息与通信技术系声音与音乐计算硕士：
该课程使学生们能够熟练掌握声音与音乐计算的前沿技术，结合了音频信号处理、机器学习、感知与认知、交互系统、计算音乐学和语义技术等研究方向的实践和理论方法，为学生开始研究或职业生涯提供了科学和技术背景。

三、本科教育：
UPF信息与通信技术系的视听系统工程学士学位、计算机工程学士学位和数据科学数学工程学士学位学生，加泰罗尼亚高等音乐学院的声学音乐学士学位学生都可参加MTG的项目和活动。

四、在线课程：

Coursera上的“Audio Signal Processing for Music Applications”（用于音乐应用程序的音频信号处理）课程；
Kadenze上的“North Indian Classical Music”课程；
Miríadax上的“Cante Flamenco Tech”课程；
除上述课程外，还有一些在线教育资料，如Essentia Python教程，用于音乐信息检索的软件工具，分析京剧音乐的计算工具等。

https://www.upf.edu/web/mtg/education-outreach/education

CCRMA

美国斯坦福大学的音乐与声学计算机研究中心（Center for Computer Research in Music and Acoustics，简称CCRMA）于1975年由John Chowning创建，是一个多学科的研究机构，作曲家和研究人员共同使用计算机技术作为艺术媒介和研究工具。其研究领域包括应用硬件/软件、合成技术与算法、物理建模、音乐与移动设备、传感器与实时控制器、信号处理、数字录音与编辑、心理声学与音乐音响、感知音频编码、音乐信息检索、音频网络等。

科研团队与项目

一、音乐、计算与设计研究小组（M:C:D）：由教师Ge Wang领导，进行音乐、计算、美学和设计的交叉研究，包括以下领域和项目：

计算机音乐软件系统的创意设计：《Artful Design》；
编程语言和交互式环境：例如ChucK（一种用于实时声音合成和音乐创作的编程语言）、sndpeek（实时音频可视化平台）、miniAudicle（ChucK语言的轻量级集成开发环境）等；
社会、人文与认知方面的音乐表达与计算；
移动音乐/社交音乐：例如手机乐团（MoPhO），使用手机作为主乐器进行合奏，利用现代软硬件独特技术功能，将多点触摸屏、内置加速度计、内置麦克风、GPS、数据网络和计算功能转换为功能强大且可移动的元乐器。
计算机介导的表演合奏：例如斯坦福笔记本电脑乐团（SLOrk），乐团使用20多台担任不同角色的笔记本电脑进行大型音乐合奏；
交互式源分离编辑器（ISSE）：使用户可以通过在声音的时-频可视化上进行绘画来执行音源分离的跨平台音频编辑工具；
……

https://ccrma.stanford.edu/groups/mcd/

二、神经音乐实验室：由Takako Fujioka于2012年牵头建立，研究目标是在基础神经科学、音乐在生命科学和工程中的应用和音乐本身的知识之间建立紧密的联系，研究项目有：

音乐结构处理：包括和弦、调式、旋律图案等，以及乐谱阅读中的视听处理；
音乐、语言与情感之间的关系研究；
听觉节奏的动力学系统建模；
神经可塑性及其治疗应用：包括对中风康复，人工耳蜗听觉和人类学习弹奏新乐器的研究。

https://ccrma.stanford.edu/groups/neuromusiclab/

三、SoundWIRE研究小组：将互联网网络用作计算机音乐性能、作曲和研究的扩展。研究领域和项目：

专业品质的低延迟多声道音频流；
网络可靠性的声音化；
高品质网络音乐会；
JackTrip：在因特网上提供高质量音频网络性能的系统。

https://ccrma.stanford.edu/groups/soundwire/

四、其它研究小组与项目

虚拟现实设计实验室：对音乐的虚拟、增强和混合现实（VR，AR，XR）的巧妙设计进行研究；
跨媒体性能实验室（IPL）：致力于跨学科艺术的研究与教育；
音乐的物理交互设计：设计新颖的物理界面和接口来创作音乐；
音乐参与研究计划（MERI）：开发并整合了多种测量音乐参与度的方法，包括测量大脑皮层反应和与音乐唤醒、情绪反应相关的生理标记，以及分析在线社交网络中用户的音乐相关行为；
虚拟世界中的音乐（MvW）：研究在虚拟环境中创建和控制音乐的模式和方法；
音乐历史研究：对1920年以前的大量录音资料进行数字化、编目和记录；
空间声音研究：从技术、音乐创作和表演的角度研究声音的空间化以及声音扩散；
……

https://ccrma.stanford.edu/groups/

教学

CCRMA是斯坦福大学音乐系的一部分。该中心开设的课程和研讨会对斯坦福大学注册学生和访问学者开放。

一、基于计算机的音乐理论与声学博士项目：
该项目同时从音乐、计算机科学、电子工程、机械工程和心理学专业招收博士生。若学生对此项目感兴趣，需先向斯坦福大学提交以上某一专业的博士生入学申请，再由CCRMA对其进行评估和筛选。CCRMA不单独招生。
该项目必修课程包括：计算机生成声音基础；作曲算法、心理声学和计算音乐；计算机生成音乐研讨会；心理物理学与音乐认知；作曲构图分析；音频信号处理导论（频谱分析与数字滤波器）；浪漫主义晚期到当代的曲目分析。

二、音乐、科学与技术硕士学位（MA/MST）：
该硕士项目为期两年，由45个课程单元组成，课程重点在音乐感知的整合，音乐相关的信号处理与控制器，合成、表演与作曲。该项目是为拥有音乐、工程学或理科学士学位的学生设计的。
必修课程包括：CCRMA学术讨论会；计算机生成声音基础；心理物理学与音乐认知；音乐、计算与设计的艺术；音频信号处理导论（频谱分析与数字滤波器）。

三、本科教育：
斯坦福大学音乐系的学生可以选修MST（Music, Science and Technology）的相关课程。

四、在线课程：

Physics-based sound synthesis for games and interactive systems（用于游戏和交互系统的基于物理的声音合成）；
Careers in media technology（媒体技术职业）；
Audio signal processing for music applications（用于音乐应用程序的音频信号处理），与MTG共同设立的课程；
Structuring interactive software for digital arts（为数字艺术构建交互式软件）。

五、部分其它课程：

计算机音乐的即兴创作和算法性能；
生物信息学的听觉重映射；
音乐声学；
电子音乐的创作和演奏；
录音技术基础；
音乐的物理交互设计；
音乐信息导论；
配器与音色分析；
音乐、健康与医学；
音乐感知与认知；
时-频音频信号处理；
听觉和音乐神经科学基础；
……

https://ccrma.stanford.edu/academics

IRCAM

法国的声学/音乐协调研究所（Institute for Research and Coordination in Acoustics/Music，简称IRCAM）由Frank Madlener领导，是世界上最大的同时致力于音乐表达和科学研究的研究中心之一，艺术情感与科技创新的碰撞吸引了超过160位合作者。