波达方向(Direction of Arrival,DOA)估计技术是语音增强和声学探测中的重要工具,对于语音机器人、视频会议、助听器和声呐等应用至关重要。最近出现的DOA估计新方法,例如图信号处理(Graph Signal Processing,GSP)方法,展现出优异的角...波达方向(Direction of Arrival,DOA)估计技术是语音增强和声学探测中的重要工具,对于语音机器人、视频会议、助听器和声呐等应用至关重要。最近出现的DOA估计新方法,例如图信号处理(Graph Signal Processing,GSP)方法,展现出优异的角度估计能力,有望提供更佳的声源DOA估计解决方案。然而,由于在多声源情况下GSP算法由邻接矩阵无法直接得到接收信号特征向量的正交补矩阵,导致多声源下GSP算法失效。为解决此问题,本文基于多源宽带语音信号的频域单源区域检测实现多声源分离,进而利用GSP和聚类算法实现宽带多声源的定位。具体而言,本文首先将GSP方法扩展到频域。其次,利用短时傅里叶变换将信号分为若干时频区域,筛选出单源主导的时频区域后,对其进行频域GSP单源定位。最后,对所有定位结果进行聚类,再通过加权平均获得最终的角度估计。我们利用LibriSpeech语音语料库构建声源信号进行多声源定位仿真,仿真结果证明,本文方法优于其他算法,较高信噪比下可将误差控制在3°以内。此外,我们使用圆形六阵元麦克风阵列,对实际录制的若干组录音数据应用所提算法进行定位测量,结果展示所提算法的定位误差更小,并在声源较为靠近时也能做到较好的分辨。展开更多
点云的处理、传输、语义分割等是3维计算机视觉领域重要的分析任务.现如今,图神经网络和图结构在点云研究方面的有效性已被证实,基于图的点云(graph-based point cloud,GPC)研究不断涌现.因此,一种统一的研究角度、框架和方法论亟待形成...点云的处理、传输、语义分割等是3维计算机视觉领域重要的分析任务.现如今,图神经网络和图结构在点云研究方面的有效性已被证实,基于图的点云(graph-based point cloud,GPC)研究不断涌现.因此,一种统一的研究角度、框架和方法论亟待形成.系统性梳理了GPC研究的各种应用场景,包括配准、降噪、压缩、表示学习、分类、分割、检测等任务,概括出GPC研究的一般性框架,提出了一条覆盖当前GPC全域研究的技术路线.具体来说,给出了GPC研究的分层概念范畴,包括底层数据处理、中层表示学习、高层识别任务;综述了各领域中的GPC模型或算法,包括静态和动态点云的处理算法、有监督和无监督的表示学习模型、传统或机器学习的GPC识别算法;总结了其中代表性的成果及其核心思想,譬如动态更新每层特征空间对应的最近邻图、分层以及参数共享的动态点聚合模块,结合图划分和图卷积提高分割精度;对比了模型性能,包括总体精度(overall accuracy,OA)、平均精度(mean accuracy,mAcc)、平均交并比(mean intersection over union,mIoU);在分析比较现有模型和方法的基础上,归纳了GPC目前面临的主要挑战,提出相应的研究问题,并展望未来的研究方向.建立的GPC研究框架具有一般性和通用性,为后续研究者从事GPC这个新型交叉领域研究提供了领域定位、技术总结及宏观视角.点云研究的出现,是探测器硬件技术长足进步后应运而生的结果;点云研究的现状表明在理论和实践之间存在一些挑战,一些关键问题还有待解决.同时,点云研究的发展将推动人工智能进入新的时代.展开更多
文摘波达方向(Direction of Arrival,DOA)估计技术是语音增强和声学探测中的重要工具,对于语音机器人、视频会议、助听器和声呐等应用至关重要。最近出现的DOA估计新方法,例如图信号处理(Graph Signal Processing,GSP)方法,展现出优异的角度估计能力,有望提供更佳的声源DOA估计解决方案。然而,由于在多声源情况下GSP算法由邻接矩阵无法直接得到接收信号特征向量的正交补矩阵,导致多声源下GSP算法失效。为解决此问题,本文基于多源宽带语音信号的频域单源区域检测实现多声源分离,进而利用GSP和聚类算法实现宽带多声源的定位。具体而言,本文首先将GSP方法扩展到频域。其次,利用短时傅里叶变换将信号分为若干时频区域,筛选出单源主导的时频区域后,对其进行频域GSP单源定位。最后,对所有定位结果进行聚类,再通过加权平均获得最终的角度估计。我们利用LibriSpeech语音语料库构建声源信号进行多声源定位仿真,仿真结果证明,本文方法优于其他算法,较高信噪比下可将误差控制在3°以内。此外,我们使用圆形六阵元麦克风阵列,对实际录制的若干组录音数据应用所提算法进行定位测量,结果展示所提算法的定位误差更小,并在声源较为靠近时也能做到较好的分辨。
文摘点云的处理、传输、语义分割等是3维计算机视觉领域重要的分析任务.现如今,图神经网络和图结构在点云研究方面的有效性已被证实,基于图的点云(graph-based point cloud,GPC)研究不断涌现.因此,一种统一的研究角度、框架和方法论亟待形成.系统性梳理了GPC研究的各种应用场景,包括配准、降噪、压缩、表示学习、分类、分割、检测等任务,概括出GPC研究的一般性框架,提出了一条覆盖当前GPC全域研究的技术路线.具体来说,给出了GPC研究的分层概念范畴,包括底层数据处理、中层表示学习、高层识别任务;综述了各领域中的GPC模型或算法,包括静态和动态点云的处理算法、有监督和无监督的表示学习模型、传统或机器学习的GPC识别算法;总结了其中代表性的成果及其核心思想,譬如动态更新每层特征空间对应的最近邻图、分层以及参数共享的动态点聚合模块,结合图划分和图卷积提高分割精度;对比了模型性能,包括总体精度(overall accuracy,OA)、平均精度(mean accuracy,mAcc)、平均交并比(mean intersection over union,mIoU);在分析比较现有模型和方法的基础上,归纳了GPC目前面临的主要挑战,提出相应的研究问题,并展望未来的研究方向.建立的GPC研究框架具有一般性和通用性,为后续研究者从事GPC这个新型交叉领域研究提供了领域定位、技术总结及宏观视角.点云研究的出现,是探测器硬件技术长足进步后应运而生的结果;点云研究的现状表明在理论和实践之间存在一些挑战,一些关键问题还有待解决.同时,点云研究的发展将推动人工智能进入新的时代.