自动化所提出类脑奖赏传播调控用于脉冲卷积网络学习----中国科学院

自动化所提出类脑奖赏传播调控用于脉冲卷积网络学习

2021-09-29 自动化研究所

【字体：大中小】

语音播报

　　近期，中国科学院自动化研究所类脑智能研究中心副研究员张铁林、研究员徐波等提出生物合理的奖赏传播算法（Biologically-plausible Reward Propagation，BRP），采用宏观的投射通路传递奖赏信息并直接用来约束SNN的局部突触学习，在网络结构改善局部学习方面取得了重要进展。科研人员提出的BRP方法将奖赏信号通过弥散矩阵编码并直接映射传播到所有的隐藏层神经元（如图）。弥散矩阵的设计模拟了大脑中皮质柱从顶到底的反向调控，可以将奖赏信息直接“升维/扩散”到脉冲前馈、脉冲卷积等多类神经计算单元，并进一步结合局部的可塑性机制实现自组织的突触学习。

　　此次设计的类脑奖赏传播BRP算法利用了生物中常见的从顶到底的调控投射结构，该结构按照均匀随机分布的原则进行设计，并在可学习和不可学习状态下，均能以极低能耗达到和传统BP相近的精度。该工作有助于推进新一代类脑人工智能模型的研究，反向验证了生物计算的简洁性、高效性。

　　相关研究成果以Tuning Convolutional Spiking Neural Network With Biologically Plausible Reward Propagation为题，在线发表在IEEE Transactions on Neural Networks and Learning Systems（IEEE-TNNLS）上。研究工作得到国家自然科学基金委员会、中科院战略性先导科技专项等的资助。

　　论文链接

　　脉冲卷积编码和奖赏传播算法。（a）脉冲卷积编码中的双时钟设计。（b）脉冲卷积编码和人工卷积编码的对比差异。（c）结构依赖的奖赏传播算法用于多层SNN学习，含有卷积、前馈等多类型结构

　　脉冲神经网络（Spiking Neural Network，SNN）被认为是第三代人工神经网络，其中多类型的脉冲神经元含有丰富的历史信息，并通过生成离散脉冲序列来异步、高效地传递时空信息。这些特征在增强SNN信息处理能力的同时也带来了高效优化的挑战。采用全局的梯度反向传播算法（Backpropagation，BP）来直接优化SNN，其学习代价高昂且并不具备生物合理性。与之相比，生物网络中多采用局部的学习方法，并结合灵活的环路结构来实现高效网络优化。
　　近期，中国科学院自动化研究所类脑智能研究中心副研究员张铁林、研究员徐波等提出生物合理的奖赏传播算法（Biologically-plausible Reward Propagation，BRP），采用宏观的投射通路传递奖赏信息并直接用来约束SNN的局部突触学习，在网络结构改善局部学习方面取得了重要进展。科研人员提出的BRP方法将奖赏信号通过弥散矩阵编码并直接映射传播到所有的隐藏层神经元（如图）。弥散矩阵的设计模拟了大脑中皮质柱从顶到底的反向调控，可以将奖赏信息直接“升维/扩散”到脉冲前馈、脉冲卷积等多类神经计算单元，并进一步结合局部的可塑性机制实现自组织的突触学习。
　　此次设计的类脑奖赏传播BRP算法利用了生物中常见的从顶到底的调控投射结构，该结构按照均匀随机分布的原则进行设计，并在可学习和不可学习状态下，均能以极低能耗达到和传统BP相近的精度。该工作有助于推进新一代类脑人工智能模型的研究，反向验证了生物计算的简洁性、高效性。
　　相关研究成果以Tuning Convolutional Spiking Neural Network With Biologically Plausible Reward Propagation为题，在线发表在IEEE Transactions on Neural Networks and Learning Systems（IEEE-TNNLS）上。研究工作得到国家自然科学基金委员会、中科院战略性先导科技专项等的资助。
　　论文链接
　　脉冲卷积编码和奖赏传播算法。（a）脉冲卷积编码中的双时钟设计。（b）脉冲卷积编码和人工卷积编码的对比差异。（c）结构依赖的奖赏传播算法用于多层SNN学习，含有卷积、前馈等多类型结构
　　

打印

责任编辑：阎芳

扫一扫在手机打开当前页

院机关

派驻机构

分院

院属机构

自动化所提出类脑奖赏传播调控用于脉冲卷积网络学习