AI，这曲儿怎么哼？基于类脑脉冲神经网络的音乐

来源：中国科学院自动化研究所

音乐贯穿了人类文明的历史，与每一种文化息息相关，遍布世界每一个角落。人类如此为音乐着迷，那么人类的大脑是如何感受与存储音乐的？计算机如何能像人类大脑一样感知与记忆音乐呢？

中国科学院自动化研究所类脑智能研究中心曾毅团队充分借鉴了人类大脑在音乐信息处理方面的神经机制，构建了一个多尺度的多脑区协同的脉冲神经网络SNN（Spiking Neural Network）模型，用于音乐感知与记忆。

模型可以通过一首曲名从而回忆起整首乐曲，也可以只通过一个片段，回忆起整首曲目，甚至可以回忆乐曲的节奏与速度。相关工作发表在Frontiers in Computational Neuroscience上。

据课题组长曾毅研究员介绍，当一首乐曲响起时，大脑的听觉系统中对音高敏感的神经元率先产生神经活动并对音高进行编码，大脑皮层-基底节-小脑-丘脑神经环路处理音乐节奏与速度，同时，记忆系统对旋律进行有效存储。

依据以上神经科学的研究成果，团队模拟了包括听觉皮层，海马区，纹状体等脑区在音乐处理方面的相关功能，自底向上地建立了一个多尺度的神经网络模型（神经元- 功能微柱- 脑区），如下图所示，该模型包含了四个子网，每个子网实现不同脑区的功能，同时，每个子网由若干具有选择性的功能微柱（Minicolumn）构成，每个功能微柱又由若干神经元（Neuron）组成。

文章的第一作者，博士生梁倩介绍：我们设计的类脑脉冲神经网络具备更深刻的生物合理性，采用了同层抑制性连接，邻层和跨层兴奋性连接，利用STDP（Spike-Timing-Dependent Plasticity）学习规则有效完成了时间顺序以及上下文信息的传输与存储。此外，受神经科学启发，网络中的每条链接引入了传输时延属性，这使得突触后神经元在接受突触前神经元的脉冲刺激时，更注重脉冲信号携带的时间信息。

由于Spatial Subnetwork与Temporal Subnetwork的功能微柱分别对音符的音高与时长具有选择性，那么随着音符的不断输入，这些功能微柱中的神经元受到音高及音符时长的刺激，对这些刺激敏感的神经元将在不同的时间段发放脉冲，因此，神经元信息以及脉冲活动共同完成了对音高及时长的编码。

此外，Goal cluster主要对乐曲名进行编码与存储。值得一提的是，网络中神经元的规模并不是预先固定的，而是随着乐曲的不断输入动态变化的。根据STDP的学习规则并结合传输时延的影响，这些神经元的放电活动将引起神经元之间链接的权重改变，因此最终音符间的顺序信息存储于突触链接中。

在记忆过程中，Goal cluster中与当前乐曲有关的神经元一直处于活动状态，因此Goal cluster与spatial subnetwork和Temporal subnetwork之间的链接权重也随之改变，从而建立起曲名与音符之间的关系。

所有乐曲记忆完成后（即网络训练完成后），当我们刺激Goal cluster中代表某个乐曲曲名的神经元，它的放电活动会刺激spatial subnetwork与temporal subnetwork相应的神经元放电，从而可以回忆起整首乐曲。

同样的，如果给网络输入一首乐曲的片段，即几个音符，那么这个片段将会刺激网络寻找记忆该片段乐曲的神经微环路，并能够通过反馈链接刺激goal cluster，从而回忆起该片段的乐曲名。

现实当中，当我们弹奏乐器或演唱一首歌曲时，我们可以控制自己弹奏或演唱的速度，模型通过模拟基底节纹状体核团的功能，也实现了记忆提取时的速度问题，当我们调整pacemaker cluster神经元的放电频率时，回忆乐曲的速度将发生相应的变化。

梁倩说，我们通过331首古典钢琴曲对模型进行实验测试，每首乐曲为MIDI格式，模型对每首乐曲进行编码与记忆，如下图所示，每首乐曲包含多个声部（音轨），每个音轨拥有不同数量的音符。

实验表明，网络不仅能够只通过乐曲名就可回忆出整首乐曲，还能仅通过一个小片段，精确地回忆起相应的乐曲。

如上图所示，图中（A）（B）表明，无论是根据乐曲名还是音乐片段，网络能都较精确地回忆出整首乐曲，图（C）（D）表明，回忆乐曲的速度会随着纹状体神经元的活动变化而随之改变。

曾毅研究员介绍：“兴趣很重要，类脑脉冲神经网络和音乐的结合3年前我们开始动手做的时候正是出于我的博士生梁倩和我个人对音乐的喜好。音乐记忆是通过类脑神经网络实现音乐学习甚至是创作的基础，音乐学习的脑机制还有很多尚不清晰，据其启发的类脑脉冲神经网络模型也就还有大量有趣的、值得研究的问题等待挖掘，例如从记忆到理解。我们目前正在进行的研究是基于类脑机制的音乐创作，这是更大的挑战，但也是更激动人心的探索。此外，这个网络并不仅仅可以用于音乐的学习与记忆，还可以拓展到机器人序列学习等领域的应用，实际上这个模型最初版本的应用我的博士生梁倩就是在机器人动作序列学习上展开的，想到应用于音乐的学习与创作，我们都非常兴奋并会一直做下去。希望这样的努力使我们离实现真正“结构机制类脑，认知行为类人”的类脑智能可以又迈进一步”。