基于BERT的语音文本二分类方法

BERT-based speech and text binary classification method

下载PDF

导出

摘要文章针对中文语音文本,通过脚本标注筛除关键词的文本数据,利用BERT预训练模型生成其余的文本的词向量序列,结合逻辑回归模型进行训练,最终获得具有“有/无意义”标签的语音文本数据。经过二分类的语音数据,可用于优化语音云平台的用户说法词库,提高用户的交互体验。 In this paper,for Chinese voice text,the text data of keywords are screened out through the script annotation,and the word vector sequence of other text is generated by pre trained BERT model.In the end,combined with logistic regression model,the voice text data with the label of"meaningful/meaningless"are obtained.The data,what is being through binary logistic way,can be used to optimize the user's speech thesaurus of voice cloud platform and improve the user's interactive experience.

作者宋冠谕程登张森刘威丁晓雯 SONG Guanyu;CHENG Deng;ZHANG Sen;LIU Wei;DING Xiaowen(SAIC GM Wuling Automoblic Co.,Ltd.,Guangxi Laboratory of New Energy Automobile,Guangxi Kcy Laboratory of Automobilc Four New Fcaturcs,Liuzhou,Guangxi 545007,China)

机构地区上汽通用五菱汽车股份有限公司

出处《计算机应用文摘》 2022年第18期96-98,共3页 Chinese Journal of Computer Application

关键词二分类脚本标注 BERT预训练模型逻辑回归 binary classification seript annotation pre-trained BERT model logistic regression

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1贾澎涛,孙炜.基于深度学习的文本分类综述[J].计算机与现代化,2021(7):29-37. 被引量：18
2李琳,董璐璐,马洪超.基于BERT的汉语作文自动评分研究[J].中国考试,2022(5):73-80. 被引量：9
3沈自强,李晔,丁青艳,王金颖,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16. 被引量：15

二级参考文献35

1线岩团,相艳,余正涛,文永华,王红斌,张亚飞.用于文本分类的均值原型网络[J].中文信息学报,2020(6):73-80. 被引量：2
2赵筱媛,苏竣.基于政策工具的公共科技政策分析框架研究[J].科学学研究,2007,25(1):52-56. 被引量：359
3张征杰,王自强.文本分类及算法综述[J].电脑知识与技术,2012,8(2):825-828. 被引量：19
4杨东,王移芝.基于Attention-based C-GRU神经网络的文本分类[J].计算机与现代化,2018(2):96-100. 被引量：23
5何屹松,孙媛媛,汪张龙,竺博.人工智能评测技术在大规模中英文作文阅卷中的应用探索[J].中国考试,2018,0(6):63-71. 被引量：21
6章刚勇.基于大数据的中国科技政策体系研究:理论与实践[J].中国软科学,2018(6):172-180. 被引量：13
7徐泓洋,杨国为.中文文本特征选择方法研究综述[J].工业控制计算机,2017,30(11):80-81. 被引量：6
8赵勤鲁,蔡晓东,李波,吕璐.基于LSTM-Attention神经网络的文本特征提取方法[J].现代电子技术,2018,41(8):167-170. 被引量：29
9蓝雯飞,徐蔚,汪敦志,潘鹏程.基于LSTM-Attention的中文新闻文本分类[J].中南民族大学学报（自然科学版）,2018,37(3):129-133. 被引量：12
10彭玉青,宋初柏,闫倩,赵晓松,魏铭.基于VDCNN与LSTM混合模型的中文文本分类研究[J].计算机工程,2018,44(11):190-196. 被引量：10

共引文献37

1丁志江,李丹,马志程,张宝龙.基于Transformer的车道线分割算法研究[J].电子测量与仪器学报,2022,36(10):227-234. 被引量：4
2沈自强,李晔,丁青艳,王金颖,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16. 被引量：15
3陈钢.融合RoBERTa和特征提取的政务热线工单分类[J].计算机与现代化,2022(6):21-26. 被引量：6
4任鹏,李文杰,舒宇杰,孙航,赵旖旎.结合BERT词嵌入和双向循环卷积神经网络的新闻文本分类研究[J].信息记录材料,2022,23(6):20-23. 被引量：2
5骆祖莹,李玉顺.智慧考场的设计架构、应用场景及关键技术[J].中国考试,2022(9):9-14. 被引量：7
6顾孟钧,冯文舟,陈中兵.不同长度下中文垃圾邮件分类模型的研究[J].工业信息安全,2022(7):28-35. 被引量：1
7王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：14
8冯梦莹,白如江,张玉洁,王效岳,耿振东,王志民.面向数字人文的稷下思想自动分类研究[J].图书情报工作,2022,66(19):26-35. 被引量：1
9孟怡悦,彭蓉,吕其标.一种结合标签分类和语义查询扩展的文本素材推荐方法[J].计算机科学,2023,50(1):76-86.
10刘江峰,林立涛,刘畅,何洪旭,吴娜,沈思,王东波.深度学习驱动的海量人文社会科学学术文献学科分类研究[J].情报理论与实践,2023,46(2):71-81. 被引量：14

1裴洪丽.融合语音文本的跨模态情感分析研究进展[J].现代信息科技,2022,6(11):113-116.
2李琼阳,何月华.基于特征选择的存量客户流失预警分析[J].许昌学院学报,2022,41(5):12-15. 被引量：1

计算机应用文摘

2022年第18期

浏览历史

内容加载中请稍等...

基于BERT的语音文本二分类方法

参考文献3

二级参考文献35

共引文献37

相关作者

相关机构

相关主题

浏览历史