期刊文献+

旅游自动问答系统中多任务问句分类研究 被引量:1

CLASSIFICATION OF MULTI-TASK QUESTIONS IN THE AUTOMATIC QUESTION-ANSWER SYSTEM FOR TOURISM
下载PDF
导出
摘要 目前旅游产业信息化建设需要构建旅游自动问答系统,其中问句分类是问答系统的重要组成部分,传统问句类别体系角度单一,且传统分类模型对不平衡的问句数据集表现欠佳。针对这一问题,该文从问题主题和问句答案类型两个角度构建了旅游领域的问句类别体系架构,并提出多任务问句分类模型MT-Bert,在BERT上进行多任务训练,并加入自注意力机制,使用Softmax分类器,并设计了多任务融合损失函数。在山西旅游数据集的结果表明,MT-Bert在两种类别体系的微平均F1值分别为97.6%、91.7%,且避免了非平衡数据的预测失败问题,可以有效处理非平衡数据。 At present,the tourism industry information construction needs to construct the tourism automatic question and answer system,in which the questions classification is a significant part of the question and answer system,the traditional question category system angle is single,and the traditional classification model is not good for the unbalanced question data set.To solve the above situation,this paper constructs the architecture of question category in tourism field from two angles:question theme and question answer type.And it proposed multi-task question classification model MT-Bert,conducted multi-task training on Bert,added self-attention mechanism,used Softmax classifier,and designed multi-task fusion loss function.The results on tourism Data Set in Shanxi show that the micro average F1 values of MT-Bert in the two kinds of systems are 97.6%and 91.7%respectively,and the prediction failure of unbalanced data is avoided,so the unbalanced data can be processed effectively.
作者 陈千 冯子珍 王素格 郭鑫 Chen Qian;Feng Zizhen;Wang Suge;Guo Xin(Faculty of Computer and Information Technology,Shanxi University,Taiyuan 030006,Shanxi,China;Computer Intelligence and Chinese Information Processing Ministry of Education Key Laboratory,Shanxi University,Taiyuan 030006,Shanxi,China)
出处 《计算机应用与软件》 北大核心 2024年第1期336-342,共7页 Computer Applications and Software
基金 山西省重点研发计划项目(201803D421024) 山西省应用基础研究计划项目(201901D111032,201701D221101) 国家自然科学基金项目(61502288,61403238)。
关键词 旅游问答 问句分类 分类体系 BERT 自注意力 多任务 Tourism question and answer(QA) Question classification Classification system BRET Self-attention Multi-task
  • 相关文献

参考文献9

二级参考文献114

  • 1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 2张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量:47
  • 3文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量:82
  • 4孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量:41
  • 5VladimirN Vapnik著 张学工译.统计学习理论的本质[M].北京:清华大学出版社,2000.1-125.
  • 6李鑫,杜永萍.基于句法信息和语义信息的问题分类[c]//第一届全国信息检索与内容安全学术会议,2004:243-251.
  • 7刘开瑛,由丽萍.汉语框架语义知识库构建工程[C].中国中文信息学会成立二十五周年学术会议论文集,2006,11:64-71.
  • 8Wei li.Question classification using language modeling[EB/OL].http:// citeseer.ist.psu.edu/576076.html.
  • 9Zhang Dell,Lee Wee Sun.Question classification using support vector machines[C]//the 26 th ACM SIGIR,2003.
  • 10li Xin,Roth D.The role of semantic information in learning question classifiers[C]//First International Joint Conference on Natural Language Processing, 2004: 451-458.

共引文献423

同被引文献5

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部