利用人类计算技术的语音语料库标注方法及其实现被引量：2

Method and implementation of transcribing speech corpora based on human-computation

下载PDF

导出

摘要提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注. A new method is proposed for generating transcriptions of speech corpora based on human-computation. The method depends on collection of orthographic transcriptions and phonetic transcriptions from a large number of users by using a Web-based language learning system and choosing commonly-used labels as the transcriptions of the speech corpora. In order to guarantee the quality of transcriptions, some computer-aided mechanisms are also used to verify the collected transcriptions. This method combines speech data transcribing with language learning and cuts down the cost of transcribing corpora effectively. The technology of human-computation-based speech corpora transcribing and the detailed design of language learning system have been discussed, transcriptions generation system has also been expatiated in this article. The application of system shows that this method is an effective and economical way to generate orthographic and phonetic transcriptions.

作者沈映泉刘勇进蔡骏史晓东

机构地区厦门大学智能科学与技术系 Groupe Parole

出处《智能系统学报》 2009年第3期270-277,共8页 CAAI Transactions on Intelligent Systems

基金国家留学基金资助项目(2006104705) 福建省自然科学基金资助项目(2006J0043) 厦门大学"985工程"二期信息创新平台资助项目(0000-X07204)

关键词语音语料库标注人类计算分布式知识获取基于Web的语言学习 speech corpora transcription human-computation distributed knowledge acquisition Web-based language learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1AHN L von,DABBISH L.Labeling images with a computer game[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.Vienna,Austria,2004:319-326.
2BIRD S,LIBEMAN M.A formal framework for linguistic annotation[J].Speech Communication,2001,33(1/2):23-60.
3YOUNG S J,EVENMANN G,GALES M,et al.The HTK book (for HTK Version 3.4)[EB/OL].[2008-06-20].http://htk.eng.cam.ac.uk/ prot-docs/htk_book.shtml.
4DEMUYNCK K,LAUREYS T,GILLIS S.Automatic generation of phonetic transcriptions for large speech corpora[C]//Proceedings of the 7th International Conference on Spoken Language Processing.Denver,USA,2002:333-336.
5SCHIEL F.Automatic phonetic transcription of non-prompted speech[C]//Proceedings of 1999 International Conference of Phonetic Sciences.San Francisco,USA,1999:607-610.
6CHANG S,SHASTRI L,GREENBERG S.Automatic phonetic transcription of spontaneous speech (American English)[C]//Proceedings of the 6th International Conference on Spoken Language Processing.Beijing,2000,4:330-333.
7CHEN S S,EIDE E,GALES M J F,et al.Automatic transcription of broadcast news[J].Speech Communication,2002,37 (1/2):69-87.
8CHAN H Y,WOODLAND P.Improving broadcast news transcription by lightly supervised discriminative training[C]//Proceedings of 2004 IEEE International Conference on Acoustics,Speech,and Signal Processing.Montreal,Canada,2004,1:737-740.
9KATO K,NANJO H,KAWAHARA T.Automatic transcription of lecture speech using topic-independent language modeling[C]//Proceedings of the Sixth International Conference on Spoken Language Processing.Beijing,China,2000:162-165.
10BACCHIANI M.Automatic transcription of voicemail at AT&T[C]//Proceedings of 2001 IEEE International Conference on Acoustics,Speech,and Signal Processing.Salt Lake City,USA,2001,1:25-28.

同被引文献15

1徐世璇.第十五届国际语言学家大会在加拿大举行[J].民族语文,1992(6):79-79. 被引量：1
2曹志耘.汉语方言:一体化还是多样性?[J].语言教学与研究,2006(1):1-6. 被引量：43
3徐世璇.濒危语言资料的记录和留存[J].广西民族大学学报（哲学社会科学版）,2006,28(5):11-15. 被引量：11
4徐世璇.论濒危语言的文献记录[J].当代语言学,2007,9(1):44-51. 被引量：9
5中国语言生活状况报告[M]. 商务印书馆, 2006.中国语言生活状况报告[M]商务印书馆,2006.
6苏龙语研究[M]. 民族出版社, 2004.苏龙语研究[M]民族出版社,2004.
7倒话研究[M]. 民族出版社, 2004.倒话研究[M]民族出版社,2004.
8布兴语研究[M]. 民族出版社, 2004.布兴语研究[M]民族出版社,2004.
9中国濒危语言个案研究[M]. 民族出版社, 2004.中国濒危语言个案研究[M]民族出版社,2004.
10濒危语言研究[M]. 中央民族大学出版社, 2001.濒危语言研究[M]中央民族大学出版社,2001.

引证文献2

1石荣,何冠霄.从认知电子战到电子对抗智能化人机系统[J].电子信息对抗技术,2016,31(2):1-6. 被引量：17
2徐世璇.我国濒危语言研究的历程和前景[J].西北民族大学学报（哲学社会科学版）,2015(1):83-90. 被引量：10

二级引证文献27

1姜艳.美军分布式电子战分析及思考[J].军民两用技术与产品,2018,0(24):253-253.
2石荣.基于机器分类判决把握度自评估的人机结合[J].电子信息对抗技术,2017,32(2):1-7.
3于重重,操镭,尹蔚彬,张泽宇,郑雅.吕苏语口语标注语料的自动分词方法研究[J].计算机应用研究,2017,34(5):1325-1328. 被引量：31
4徐佳祥.临近空间目标智能拦截概念技术研究[J].战术导弹技术,2017(3):29-33.
5石荣,徐剑韬,邓科.电子对抗人机系统效能的个体差异建模及应用[J].工业工程,2017,20(3):28-34.
6石荣.从电磁域到认知域:电子战中的心理战特征浅析[J].电子信息对抗技术,2017,32(4):1-5. 被引量：8
7石荣,徐剑韬,邓科.历史上电子战军官的工作任务与作业岗位分析[J].电子信息对抗技术,2017,32(5):33-40. 被引量：1
8何丹丹.浅析“一带一路”背景下广西民族语言的传承与保护[J].南宁职业技术学院学报,2017,22(6):30-33. 被引量：3
9操镭,尹蔚彬,孙沁瑶,王志,于重重,李道玮.濒危语言口语语料库的研究与构建——以吕苏语为范例[J].计算机工程与应用,2018,54(2):234-238. 被引量：6
10邓文彬,王秀英.中国濒危语言研究的历史分期及其特点[J].民族学刊,2017,8(6):66-70. 被引量：2

1冯林,罗芬,宋薇薇,何明瑞.粗糙环境下分布式知识获取方法研究[J].计算机应用,2005,25(B12):276-277. 被引量：2
2梁春丽.语音交互的趋势将取代键盘输入[J].金融科技时代,2016,24(4):86-86.
3李楠.IBM p系列助力中小企业[J].开放系统世界,2006(10):9-9.
4敬礼,64位时代![J].计算机与网络,2004,30(16):12-12.
5姚爱国,郭永祯,金礼明.QoS和IPSec结合的虚拟专用网设计和分析[J].计算机工程与设计,2004,25(11):2024-2026. 被引量：1
6张晓航,李国良,冯建华.大数据群体计算中用户主题感知的任务分配[J].计算机研究与发展,2015,52(2):309-317. 被引量：11
7陈嶷瑛,孟庆新,刘智国.基于测试分类精度的多分类器融合方法[J].佳木斯大学学报（自然科学版）,2006,24(1):75-77.
8贺俊文,顾法江,赵庆红.浅谈技工学校计算机教学[J].中国科技纵横,2010(10):140-140.
9热依曼.吐尔逊,依皮提哈尔.买买提.维吾尔语语音语料库管理软件的研究与实现[J].新疆大学学报（自然科学版）,2011,28(2):242-247. 被引量：7
10努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.面向大词汇量的维吾尔语连续语音识别研究[J].计算机工程与应用,2013,49(9):115-119. 被引量：7

智能系统学报

2009年第3期

浏览历史

内容加载中请稍等...

利用人类计算技术的语音语料库标注方法及其实现被引量：2

参考文献19

同被引文献15

引证文献2

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

利用人类计算技术的语音语料库标注方法及其实现 被引量：2

参考文献19

同被引文献15

引证文献2

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

利用人类计算技术的语音语料库标注方法及其实现被引量：2