唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视...唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.展开更多
运动推断结构(Structure From Motion,SFM)是一种从图像或视频序列生成三维点云模型的技术.由于SFM能够产生与输入图像或视频场景具有较高几何一致性的三维模型,因此,吸引了国内外学者的广泛关注,并将其应用于计算机视觉和图形学领域生...运动推断结构(Structure From Motion,SFM)是一种从图像或视频序列生成三维点云模型的技术.由于SFM能够产生与输入图像或视频场景具有较高几何一致性的三维模型,因此,吸引了国内外学者的广泛关注,并将其应用于计算机视觉和图形学领域生成场景的三维模型,例如一些经典的应用有三维重建、增强现实、虚拟现实和无人驾驶等.特征跟踪作为运动推断结构的关键基础技术,可用来在图像和视频序列中寻找对应的匹配点,这些匹配点的质量直接影响着SFM生成的三维点云模型的几何形状.因此,为了提高SFM生成的点云模型与真实场景在几何上的一致性,研究者们提出了大量的特征跟踪方法,这些方法主要分为两类:处理无序图像的特征跟踪方法和处理视频序列的特征跟踪方法.然而,在现有的特征跟踪方法中,研究者们主要集中于在特定应用环境下如何提高特征跟踪的精度与时间效率,而忽略了特征跟踪领域尚未解决的一些问题.为了促进特征跟踪技术的发展和提高SFM生成的点云模型的质量,该论文综述了现有的特征跟踪方法.具体地说,该论文首先详细地分析了处理无序图像集合和视频序列的特征跟踪方法,阐述每个特征跟踪方法的核心思想、优点与不足.其次,总结了特征跟踪领域一些可用的算法,如特征检测子、特征描述子和特征匹配方法,以及一些标准的测试数据集.第三,在不同类型的数据集上评估了一些经典的特征跟踪方法,以便为选择合适的特征跟踪方法提供参考.第四,总结了特征跟踪领域一些迫切需要解决的问题,讨论了影响特征跟踪方法时间效率和精度的主要因素,以便促进特征跟踪技术的发展.最后,探讨了特征跟踪技术的发展趋势,为未来研究指明方向.展开更多
集束调整是运动推断结构的核心,针对现有算法在大规模场景下易受外点影响,空间占用率过高和效率较低问题,提出一种快速鲁棒的集束调整(fast and robust bundle adjustment,FRBA)算法.首先,为了避免外点(outliers)的影响,采用Cauchy损失...集束调整是运动推断结构的核心,针对现有算法在大规模场景下易受外点影响,空间占用率过高和效率较低问题,提出一种快速鲁棒的集束调整(fast and robust bundle adjustment,FRBA)算法.首先,为了避免外点(outliers)的影响,采用Cauchy损失降低外点的权重,提高算法精度.其次,充分利用运动推断结构中三维点与摄像机之间的稀疏性对大规模集束调整进行稀疏分解,降低内存空间的使用.最后,根据稀疏分解后矩阵的固有特性,采用快速矩阵分解法求解正态方程的解.在合成数据集、BAL数据集和真实图像数据集上对FRBA算法进行测试,并与现有经典算法进行比较.实验结果表明无论在时间效率还是精度上,FRBA算法均处于领先位置.展开更多
mean shift目标跟踪使用任一个单独特征都很难对大幅度的光照、背景变化和车辆大范围运动具有强鲁棒性,如单一的颜色特征对光照较为敏感,光照突变容易导致目标丢失。当背景颜色和目标颜色相近时也易造成目标丢失,因此利用目标的单一特...mean shift目标跟踪使用任一个单独特征都很难对大幅度的光照、背景变化和车辆大范围运动具有强鲁棒性,如单一的颜色特征对光照较为敏感,光照突变容易导致目标丢失。当背景颜色和目标颜色相近时也易造成目标丢失,因此利用目标的单一特征信息往往很难实现鲁棒的目标跟踪。文章提出基于颜色和LBP多特征mean shift跟踪方法,使跟踪结果不再过分依赖某一特征,增强了对背景变化、目标大范围运动的鲁棒性。展开更多
文摘唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network,LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.
文摘运动推断结构(Structure From Motion,SFM)是一种从图像或视频序列生成三维点云模型的技术.由于SFM能够产生与输入图像或视频场景具有较高几何一致性的三维模型,因此,吸引了国内外学者的广泛关注,并将其应用于计算机视觉和图形学领域生成场景的三维模型,例如一些经典的应用有三维重建、增强现实、虚拟现实和无人驾驶等.特征跟踪作为运动推断结构的关键基础技术,可用来在图像和视频序列中寻找对应的匹配点,这些匹配点的质量直接影响着SFM生成的三维点云模型的几何形状.因此,为了提高SFM生成的点云模型与真实场景在几何上的一致性,研究者们提出了大量的特征跟踪方法,这些方法主要分为两类:处理无序图像的特征跟踪方法和处理视频序列的特征跟踪方法.然而,在现有的特征跟踪方法中,研究者们主要集中于在特定应用环境下如何提高特征跟踪的精度与时间效率,而忽略了特征跟踪领域尚未解决的一些问题.为了促进特征跟踪技术的发展和提高SFM生成的点云模型的质量,该论文综述了现有的特征跟踪方法.具体地说,该论文首先详细地分析了处理无序图像集合和视频序列的特征跟踪方法,阐述每个特征跟踪方法的核心思想、优点与不足.其次,总结了特征跟踪领域一些可用的算法,如特征检测子、特征描述子和特征匹配方法,以及一些标准的测试数据集.第三,在不同类型的数据集上评估了一些经典的特征跟踪方法,以便为选择合适的特征跟踪方法提供参考.第四,总结了特征跟踪领域一些迫切需要解决的问题,讨论了影响特征跟踪方法时间效率和精度的主要因素,以便促进特征跟踪技术的发展.最后,探讨了特征跟踪技术的发展趋势,为未来研究指明方向.
文摘集束调整是运动推断结构的核心,针对现有算法在大规模场景下易受外点影响,空间占用率过高和效率较低问题,提出一种快速鲁棒的集束调整(fast and robust bundle adjustment,FRBA)算法.首先,为了避免外点(outliers)的影响,采用Cauchy损失降低外点的权重,提高算法精度.其次,充分利用运动推断结构中三维点与摄像机之间的稀疏性对大规模集束调整进行稀疏分解,降低内存空间的使用.最后,根据稀疏分解后矩阵的固有特性,采用快速矩阵分解法求解正态方程的解.在合成数据集、BAL数据集和真实图像数据集上对FRBA算法进行测试,并与现有经典算法进行比较.实验结果表明无论在时间效率还是精度上,FRBA算法均处于领先位置.