不完全匹配的语音和文本语句级对齐被引量：1

Sentence Level Text-speech Alignment for Imperfect Transcriptions

下载PDF

导出

摘要语音文本自动对齐技术广泛应用于语音识别与合成、内容制作等领域,其主要目的是将语音和相应的参考文本在语句、单词、音素等级别的单元进行对齐,并获得语音与参考文本之间的时间对位信息.最新的先进对齐方法大多基于语音识别,一方面,准确率受限于语音识别效果,识别字错误率高时文语对齐精度明显下降,识别字错误率对对齐精度影响较大;另一方面,这种对齐方法不能有效处理不完全匹配的长篇幅语音和文本的对齐.该文提出一种基于锚点和韵律信息的文语对齐方法,通过基于边界锚点加权的片段标注将语料划分为对齐段和未对齐段,针对未对齐段使用双门限端点检测方法提取韵律信息,并检测语句边界,降低了基于语音识别的对齐方法对语音识别效果的依赖程度.实验结果表明,与目前先进的基于语音识别的文语对齐方法比较,即使在识别字错误率为0.52时,该文所提方法的对齐准确率仍能提升45%以上;在音频文本不匹配程度为0.5时,该文所提方法能提高3%. Automatic text-speech alignment technology is widely used in speech recognition and synthesis,content production,and other fields.Automatic text-speech alignment aims to align speech with text in sentence,word,and phoneme units and obtain the time alignment information.Most of the recent alignment methods are based on automatic speech recognition(ASR).On the one hand,the alignment accuracy is limited by the word error rate(WER)of ASR.On the other hand,such methods cannot effectively align imperfect transcriptions.This study proposes a text-speech alignment method based on anchor and prosodic information.Through fragment annotation based on boundary anchor weighting,speech is divided into aligned and unaligned fragments.For unaligned fragments,this study extracts their prosodic information by a dual-threshold endpoint detection method and detects the boundaries of sentences.This approach reduces the dependence of ASR-based text-speech alignment on the speech recognition effect.Compared with the current advanced ASR-based text-speech alignment methods,the proposed method can improve alignment accuracy by more than 45%when the WER is 0.52 and by at least 3%when the degree of incomplete matching is 0.5.

作者徐锴陶冶李辉 XU Kai;TAO Ye;LI Hui(School of Information Science and Technology,Qingdao University of Science and Technology,Qingdao 266061,China)

机构地区青岛科技大学信息科学技术学院

出处《计算机系统应用》 2023年第4期300-307,共8页 Computer Systems & Applications

基金国家重点研发计划(2018YFB1702902) 山东省高等学校青创科技支持计划(2019KJN047)。

关键词语音文本对齐韵律信息锚点自动语音识别端点检测 text-speech alignment prosodic information anchor automatic speech recognition(ASR) endpoint detection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1韦向峰,袁毅,张全,池毓焕.富媒体环境下语音和文本内容的对齐研究[J].情报工程,2019,5(2):17-27. 被引量：1
2牛米佳,飞龙,高光来.蒙古语长音频语音文本自动对齐的研究[J].中文信息学报,2020,34(1):51-57. 被引量：5

二级参考文献5

1韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2
2韩立华,王博,段淑凤.语音端点检测技术研究进展[J].计算机应用研究,2010,27(4):1220-1226. 被引量：39
3李晶皎,张王利,姚天顺.汉语语音理解中自动纠错系统的研究[J].软件学报,1999,10(4):377-381. 被引量：4
4塞麦提.麦麦提敏,侯敏,吐尔根.伊布拉音.基于锚点句对的汉维句子对齐方法[J].计算机工程,2015,41(4):166-170. 被引量：5
5张巍,王永远,贾晓茹,李传越.无标注的含噪中文长篇幅语音文本的文语对齐研究[J].中国海洋大学学报（自然科学版）,2015,45(10):121-126. 被引量：1

共引文献4

1刘尚旺,王培哲,张翰林,涂婉宇.人机交互系统多维语音信息识别方法[J].计算机仿真,2021,38(12):367-370. 被引量：4
2李娅,马琳.基于语音识别的日语机器翻译系统设计[J].自动化与仪器仪表,2022(7):229-232. 被引量：1
3甄兆博,张晖.语音文本对齐技术构建蒙古语语音识别语料库研究[J].中央民族大学学报（自然科学版）,2024,33(1):12-19.
4张济民,早克热·卡德尔,艾山·吾买尔,申云飞,汪烈军.基于改进Conformer的新闻领域端到端语音识别[J].中文信息学报,2024,38(4):156-164. 被引量：1

同被引文献12

1芦鹏,戴凤智,尹迪,温浩康,高一婷.基于改进扩展典型相关分析的SSVEP信号识别方法[J].电子测量技术,2023,46(1):78-83. 被引量：3
2张颖,杨广媛.基于FW-PSO算法优化无线传感网络拓扑结构的方法[J].电子与信息学报,2021,43(2):396-403. 被引量：23
3孙劲光,贾彦勇,宋晟民.基于度量学习和典型相关分析的亲缘关系识别网络[J].控制与决策,2021,36(8):1977-1983. 被引量：2
4袁红春,刘慧,张硕,陈冠奇.基于深度学习和典型相关分析的渔情预测方法[J].大连海洋大学学报,2021,36(4):670-678. 被引量：3
5王若谷,刘佳玲,刘宛菘,秦博宇.基于PSO算法的直流近区光伏发电系统控制参数优化方法[J].电工电能新技术,2021,40(12):19-29. 被引量：10
6田劼,银晓琦,文艺成.基于混合IWO-PSO算法的掘进机截割轨迹规划方法[J].工矿自动化,2021,47(12):55-61. 被引量：9
7杜思予,全英汇,沙明辉,方文,邢孟道.基于进化PSO算法的稀疏捷变频雷达波形优化[J].系统工程与电子技术,2022,44(3):834-840. 被引量：4
8王凯明,鲁伊莎,肖玉柱,宋学力.基于自适应稀疏监督典型相关分析的特征选择[J].计算机应用与软件,2022,39(4):294-299. 被引量：1
9周泉,张策腾飞,李雁飞,帅斌,徐宏明.基于数字孪生和PSO算法的混动车辆能量管理策略鲁棒优化[J].汽车安全与节能学报,2022,13(3):517-525. 被引量：2
10杨柳青.基于深度学习的英语语句翻译误差校正方法[J].自动化技术与应用,2022,41(12):92-95. 被引量：4

引证文献1

1李静莹.融合CCA投影子空间和改进PSO算法的AI人工智能翻译语句对齐分析[J].自动化与仪器仪表,2024(8):238-242.

1潘基宏,黄娴,张克亮.面向自动语音识别的阿拉伯语动词语音特点研究[J].解放军外国语学院学报,2023,46(1):70-77.
2李强.钢轨廓形测量自动对齐技术研究[J].中国设备工程,2023(8):107-109.
3黄平文,林巧.中高级汉语水平的泰国留学生别字偏误分析[J].广西民族师范学院学报,2023,40(1):78-84.
4马赫,王海荣,周北京,孙崇,徐玺.基于表示学习的实体对齐方法综述[J].计算机工程与科学,2023,45(3):554-564. 被引量：2
5王云鹤.全媒体时代电视新闻编辑的创新思路与方法[J].传媒论坛,2022,5(24):106-108. 被引量：5
6张祖红.语音信号的处理技术及其应用分析[J].电子技术（上海）,2022,51(12):151-153. 被引量：1
7张添添,王婧.基于At-LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251-254. 被引量：3
8付娥.绘本故事让小学道德与法治教学充满活力[J].前卫,2023(14):89-91.
9王中正,王鉴,韩焱,韩星程.一种舰载低信噪比环境下的音频端点检测算法[J].兵器装备工程学报,2023,44(3):197-203. 被引量：2
10王雷,马朝飞,张舒皓,高嘉淇.基于多级频谱分析和能熵比的应答器系统设计[J].湖南大学学报（自然科学版）,2023,50(4):147-154.

计算机系统应用

2023年第4期

浏览历史

内容加载中请稍等...

不完全匹配的语音和文本语句级对齐被引量：1

参考文献2

二级参考文献5

共引文献4

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

不完全匹配的语音和文本语句级对齐 被引量：1

参考文献2

二级参考文献5

共引文献4

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

不完全匹配的语音和文本语句级对齐被引量：1