基于主题扩展的领域问题分类方法被引量：10

Domain Question Classification Method Based on Topic Expansion

下载PDF

导出

摘要领域问题分类在问答系统中占有重要地位,但目前面向特定领域的研究较少。针对领域问题文本篇幅较短、数据稀疏的特点,提出基于主题扩展的领域问题分类方法。该方法主要包括特征选择和特征扩展2个部分。利用卡方统计量特征选择方法,将问题文本选择的特征词作为特征扩展的依据。通过潜在狄利克雷分配主题模型对外部知识库进行分析,得到对应的主题分布。为避免引入噪声主题,采用主题熵的方法得到优质主题。将优质主题下所覆盖的词扩充到问题文本中,最后利用支持向量机分类器对问题文本进行分类。实验结果表明,与传统TFIDF文本分类方法相比,该方法分类效果较好,可提高问答系统的性能。 Domain question classification plays a central role in Question and Answering （Q＆A） systems. Lots of current research work on question classification focuses on open domains while few of them pays attention to special domains. The domain questions are always short and have the issue of data sparseness. Hence, this paper proposes a method for domain question classification based on topic expansion. This algorithm mainly consists of two components： feature selection and feature expansion. It first extracts feature words, which are the bases of feature expansion, from raw question text through feature selection method CHI. Then it uses Latent Dirichlet Allocation （LDA） topic model to analyze the universal dataset to obtain the topic distribution. To avoid noisy topics, this paper adopts topic entropy to obtain high quality topics. Finally, it expands question text using the words from high quality topics and classifies the expanded question text using Support Vector Machine （SVM）. Experimental results show that the proposed method performs better than the traditional text classification method TFIDF and is helpful to improve the performance of Q＆A systems.

作者张青吕钊

机构地区华东师范大学计算机科学技术系

出处《计算机工程》 CAS CSCD 北大核心 2016年第9期202-207,213,共7页 Computer Engineering

基金上海市科学技术委员会科研计划基金资助项目(1451110700 14511106803) 上海张江国家自主创新示范区专项发展基金资助项目(201411-JA-B108-002)

关键词领域问题分类数据稀疏特征选择主题模型优质主题特征扩展 ] domain question classification data sparseness feature selection topic model high quality topic feature expansion

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Rahman T A. Question Classification Using Statistical Approach: A Complete Review [J],Journal of Theore- tical and Applied Information Technology,2015,71 ( 3 ) : 386-395.
2Roberts K, Kilicoglu H, Fiszman M, et al. Automatically Classifying Question Types for Consumer Health Questions [ C l//Proceedings of 2014 AMIA Annual Symposium. Washinton D. C., USA: American Medical Informatics Association ,2014 : 1018-1027.
3Qu Bo,Cong Gao,Li Cuiping,et al. An Evaluation of Class- ification Models for Question Topic Categorization ~ J ~. Journal of the American Society for Information Science and Technology ,2012,63 (5) :889-903.
4Loni B. A Survey of State-of-the-Art Methods on Question Classification ~ D 1 ~ Delft, the Netherlands : Delft University of Technology ,2011.
5Zhang D, Lee W S. Question Classification Using Support Vector Machines [ C ~//Proceedings of Annual International ACM SIGIR Conference on Research & Development in Informaion Retrieval. New York, USA: ACM Press ,2003:939-947.
6冶忠林,杨燕,贾真,尹红风.基于语义扩展的短问题分类[J].计算机应用,2015,35(3):792-796. 被引量：16
7Phan X H,Nguyen C T,Le D T,et al. A Hidden Topic- based Framework Toward Building Applications with Short Web Documents [ J ]. IEEE Transactions on Knowledge and Data Engineering,2011,23 (7) :961-976.
8Vo D T, Ock C Y. Learning to Classify Short Text from Scientific Documents Using Topic Models with Various Types of Knowledge [J]. Expert Systems with Applications, 2015,42(3) :1684-1698.
9Yang Y,Pedersen J O. A Comparative Study on FeatureSelection in Text Categorization ~ C l//Proceedings of International Conference on Machine Learning. Nashville, USA:The Institute of Museum and Library Services, 1997: 412-420.
10刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-15. 被引量：40

二级参考文献13

1李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
2LEE K-S, OH J-H, HUANG J-X, et al. TREC-9 experiments at KAIST: QA, CLIR and batch filtering[C]//Proceedings of the 9th Text Retrieval Conference (TREC-9). Gaithersburg: NIST, 2000:303-316.
3PASCA M A, HARABAGIU S M. High performance question/answering[J]. Research and Development in Information Retrieval, 2001,11(3):366-374.
4PRAGER J, REDEV D, BROWN E, et al. The use of predictive annotation for question answering in TREC[C]//Proceedings of the 8th Text Retrieval Conference (TREC-8). Gaithersburg: NIST, 1999:107-111.
5HACIOGLU K, WARD W. Question classification with support vector machines and error correcting codes[C]//Proceedings of the 2003 HLT-NAACL. Stroudsburg: Association for Computational Linguistics, 2003: 28-30.
6ZHANG D, LEE W S. Question classification using support vector machines[C]//Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:26-32.
7LI X, ROTH D. Learning question classifiers[C]//Proceedings of the 19th International Conference on Computational Linguistics (COLING). Stroudsburg: Association for Computational Linguistics, 2002:556-562.
8METZLER D, CROFT W B. Analysis of statistical question classification for fact-based questions[J]. Journal of Information Retrieval, 2005,8(3):481-504.
9NGUYEN M L, NGUYEN T T, SHIMAZU A. Subtree mining for question classification problem[C]//Proceedings of the 20th International Conference on Artificial Intelligence. Pittsburgh: Pennsylvania, 2007: 1695-1700.
10BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(1):993-1022.

共引文献54

1周永健,郑玉明,廖湖声.基于模糊聚类的文本分类器[J].微电子学与计算机,2006,23(z1):137-140. 被引量：1
2刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
3石敏,康耀红.一种联合的文本分类特征抽取函数[J].海南大学学报（自然科学版）,2005,23(4):347-350.
4谢科,张辉,陈鹏,庞斌.文本分类系统关键技术[J].广西师范大学学报（自然科学版）,2007,25(2):123-126. 被引量：7
5王倩倩,段震,张燕平.基于交叉覆盖算法的文本分类[J].计算机技术与发展,2007,17(6):113-115. 被引量：5
6原福永,于歌,崔春华.基于特征选择的网页分类方法研究[J].计算机工程与设计,2007,28(17):4282-4284. 被引量：3
7高媛,刘大中.中文文本分类方法比较研究[J].科技信息,2008(2):7-8. 被引量：2
8闫屹,张燕平,耿筱媛.基于CHI值特征选取和覆盖的文本分类方法[J].计算机技术与发展,2008,18(5):79-81. 被引量：4
9白云晖.基于信息增益特征选取和覆盖的中文文本分类[J].福建电脑,2008,24(7):113-114.
10毛雪云,曾国荪,王伟.基于向量空间模型的网页文本可信性分类方法[J].计算机工程与应用,2008,44(25):109-112. 被引量：1

同被引文献59

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2余本功,许庆堂,张培行.基于MAC-LSTM的问题分类研究[J].计算机应用研究,2020,37(1):40-43. 被引量：15
3耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
4刘新生,厉锟.基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J].计算机与现代化,2011(7):192-194. 被引量：1
5常鹏,冯楠,马辉.一种基于词共现的文档聚类算法[J].计算机工程,2012,38(2):213-214. 被引量：15
6王振宇,吴泽衡,胡方涛.基于HowNet和PMI的词语情感极性计算[J].计算机工程,2012,38(15):187-189. 被引量：32
7赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：31
8殷国鹏.消费者认为怎样的在线评论更有用?——社会性因素的影响效应[J].管理世界,2012,28(12):115-124. 被引量：190
9李杰锋,沈星,杨学永.形状记忆合金在变体机翼中的应用现状[J].材料导报,2014,28(7):104-108. 被引量：10
10周剑峰,阳爱民,周咏梅,王璇璇.基于二元搭配词的微博情感特征选择[J].计算机工程,2014,40(6):162-165. 被引量：6

引证文献10

1张志远,杨宏敬,赵越.基于吉布斯采样结果的主题文本网络构建方法[J].计算机工程,2017,34(6):150-157. 被引量：5
2罗弦,查志勇,徐焕,刘芬,詹伟.基于云计算的大数据自动分类处理系统设计[J].计算机测量与控制,2017,25(10):278-280. 被引量：12
3马建红,王瑞杨,姚爽,刘双耀.基于深度学习的专利分类方法[J].计算机工程,2018,44(10):209-214. 被引量：17
4谢雨飞,吕钊.基于语义扩展与注意力网络的问题细粒度分类[J].计算机工程,2019,45(1):165-171. 被引量：3
5黄贤英,谢晋,龙姝言.融合词向量及BTM模型的问题分类方法[J].计算机工程与设计,2019,40(2):384-388. 被引量：8
6高颀.基于“Effect-theme”共现网络的专利分类方法[J].信息技术与信息化,2020(4):137-142. 被引量：2
7余本功,朱梦迪.基于层级注意力多通道卷积双向GRU的问题分类研究[J].数据分析与知识发现,2020,4(8):50-62. 被引量：6
8马喆康,迪力亚尔·帕尔哈提,早克热·卡德尔,吐尔根·依布拉音,西尔艾力·色提,艾山·吾买尔.一种集成深度学习模型的旅游问句文本分类算法[J].计算机工程,2020,46(11):70-76. 被引量：4
9丁勇,程家桥,蒋翠清,王钊.基于主题和关键词特征的比较文本分类方法[J].计算机工程与应用,2021,57(17):196-202. 被引量：4
10费清春,史莹莹,曾庆国.基于故障模式的装备质量问题文本分类方法[J].信息技术与网络安全,2021,40(9):14-18. 被引量：1

二级引证文献61

1杜恒欣,朱习军.基于BiLSTMATTCNN中文专利文本分类[J].计算机系统应用,2020(11):260-265. 被引量：3
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
3李锦华.基于计算机软件工程技术的数据处理系统设计研究[J].信息系统工程,2018,31(5):28-28. 被引量：1
4马建红,樊跃翔.基于改进Labeled LDA模型的科技视频文本分类[J].计算机工程,2018,44(9):274-279. 被引量：3
5金宇.基于云计算环境的大数据兼容性存储系统设计[J].现代电子技术,2019,42(1):24-27. 被引量：15
6张丽萍.基于群体协同智能聚类的期刊分类大数据自动存储方法[J].北京科技大学学报（社会科学版）,2019,35(2):67-72. 被引量：7
7李宝树,仇红剑,周鑫.基于大数据的电力负荷自动监测系统设计[J].电子设计工程,2019,27(8):95-98. 被引量：12
8陈永浩.云计算下运动员生理信号数据智能采集系统设计[J].电子设计工程,2019,27(13):53-57. 被引量：2
9梁治钢,王一敏.深度学习在电子病历抗菌药物使用方法分类中的应用[J].计算机系统应用,2019,28(8):71-77. 被引量：4
10王斌.基于云计算的GIS大数据分析技术与应用[J].国外电子测量技术,2019,38(9):136-141. 被引量：7

1王学贺.基于主题扩展的校园论坛热点话题发现方法与系统[J].西藏大学学报（社会科学版）,2016,31(5):110-116. 被引量：1
2大风.轻松学习Word2000(三)[J].中老年保健,2003(3):37-37.
3陆浩,牛振东,张楠,孙星恺,刘文礼.基于句法与主题扩展的中文微博情感倾向性分析模型[J].北京理工大学学报,2014,34(8):824-830. 被引量：9
4杨希,刘晓升,杨璐,严建峰.基于共享内存的并行LDA算法[J].计算机应用与软件,2016,33(3):252-254.
5李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
6于福超,卢廷钧,王裴岩,张桂平.一种面向情报服务的交互式主题扩展方法[J].沈阳航空航天大学学报,2016,33(2):59-64.
7高阳,严建峰,刘晓升.朴素并行LDA[J].计算机科学,2015,42(6):243-246. 被引量：8
8何甜,解建军.基于LDA主题模型的评价对象抽取[J].电脑与信息技术,2017,25(2):11-13.
9戴洪玲.巧妙提取加密PDF文档中的文本[J].大众软件,2005(1):67-67.
10朱梅影.如何立足文本选择教学内容[J].学生之友（小学版）,2012(22):95-95.

计算机工程

2016年第9期

浏览历史

内容加载中请稍等...

基于主题扩展的领域问题分类方法被引量：10

参考文献15

二级参考文献13

共引文献54

同被引文献59

引证文献10

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于主题扩展的领域问题分类方法 被引量：10

参考文献15

二级参考文献13

共引文献54

同被引文献59

引证文献10

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于主题扩展的领域问题分类方法被引量：10