基于增量式贝叶斯模型的中文问句分类研究被引量：7

Chinese Question Classification Research Based on Incremental Bayes Model

下载PDF

导出

摘要固定训练集生成的分类器性能不理想且不能跟踪用户需求,为此,提出一种将增量式贝叶斯思想用于问句分类的方法。采用遗传算法选取最优特征子集优化分类器,从而避免训练集特征过分冗余,使分类器在学习过程中动态地扩大训练集并修改分类器参数。在对问句进行分类时,提取问句的疑问词、句法结构、疑问意向词和疑问意向词在知网的首项义原作为分类特征。为了验证增量式贝叶斯方法的有效性,从语料库中随机抽取不同规模的问句构成增量集,基于不同的增量集对同一测试集中的问句进行分类。实验结果表明,增量式贝叶斯分类器较朴素贝叶斯分类器有更高的分类精度,大类和小类的准确率分别达到90.2%和76.3%,在提高准确率的同时优化了运行效率。 Since the performance of the classifier generated by the fixed training set is not satisfactory and can hardly track the users＇ needs dynamically,in this paper,the incremental Bayes idea is introduced in question classification. In order to eliminate the feature redundancy in the training set,Genetic Algorithm（GA）is used to select the optimal features to amend the classifier. In the process of classifier learning,the parameters are modified dynamically while the training set is expanded. The interrogative word,syntax structure,question focus words,and their first sememes are chosen as classification features. To verify the effectiveness of the proposed method,in the experiment,questions of different size at random are extracted from the corpus to build the incremental sets. Then classify the questions from the same test set based on different incremental sets. Experimental results show that the incremental Bayes classifier achieves better result.The classification accuracy of coarse classes and fine classes achieves90.2% and76.3% respectively. At the same time,it significantly optimizes the efficiency to some degree.

作者王小林镇丽华杨思春邰伟鹏郑啸

机构地区安徽工业大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 2014年第9期238-242,共5页 Computer Engineering

基金国家自然科学基金资助项目(61003311) 安徽高校省级自然科学基金资助项目(KJ2011A040)

关键词问句分类问答系统增量式贝叶斯朴素贝叶斯改进贝叶斯遗传算法 question classification question answering system incremental Bayes naive Bayes modified Bayes Genetic Algorithm（GA）

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1郑实福,刘挺,秦兵,李生.自动问答综述[J].中文信息学报,2002,16(6):46-52. 被引量：165
2杨思春,高超,秦锋,戴新宇,陈家骏.融合基本特征和词袋绑定特征的问句特征模型[J].中文信息学报,2012,26(5):46-52. 被引量：8
3陈文,晏立,周亮.一种具有增量学习能力的PU主动学习算法[J].计算机工程,2011,37(4):214-215. 被引量：1
4Sarkar B K,Sana S S,Chaudhuri K. Selecting Informative Rules with Parallel Genetic Algorithm in Classification Problem [J]. Applied Mathematics and Computation, 2011,218(7):3247-3264.
5宫秀军,刘少辉,史忠植.一种增量贝叶斯分类模型[J].计算机学报,2002,25(6):645-650. 被引量：56
6李鑫,黄萱菁,吴立德.基于错误驱动算法组合分类器及其在问题分类中的应用[J].计算机研究与发展,2008,45(3):535-541. 被引量：19
7许莉,王大玲,夏秀峰.基于句法和语义信息的问句特征提取方法[J].计算机工程,2010,36(21):65-66. 被引量：6
8洪智勇,王天擎,刘灿涛.一种新的互信息特征子集评价函数[J].计算机工程与应用,2011,47(22):130-132. 被引量：4
9Lee J H. Combining the Evidence of Different Relevance Feedback Methods for Information Retrieval [J]. Information Processing and Management,1998,34(6): 681-691.
10Tao Dacheng,Tang Xiaoou,Li Xuelong. Direct Kernel Biased Discriminant Analysis: A New Content-based Image Retrieval Relevance Feedback Algorithm [J]. IEEE Transactions on Multimedia,2006,8(4):716-727.

二级参考文献64

1张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
2余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
3文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
4孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41
5宫秀军史忠植.基于贝叶斯潜在语义模型的半监督Web挖掘[J].软件学报，已录用,.
6[8]Ulf Hermjakob. Parsing and Question Classification for Question Answering. Proceeding of the workshop on Open-Domain Question Answering at ACL-2001
7[9]Eugene Agichtein, Steve Lawrence, Luis Gravano. Learning Search Engine Specific Query Transformations for Question Answering. ACM 2001,169- 178
8[10]Soo-Min Kim, ae-Ho Baek, Sang-Beom Kim, Hae-Chang Rim Question Answering Considering Semantic Categories and Co-occurrence Density. Proceedings of the night Text Retrieval Conference (TREC-9)
9[11]Marius Pasca, Sanda Harabagiu. High-Performance Question/Answering. 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval ( Sigir-01 ). New Orleans, LA. September 9 - 13,2001
10[1]Ittycheriah,M. Franz,W-J Zhu,A. Ratnaparkhi. IBM's Statistical Question Answering System. Proceedings of the night Text Retrieval Conference (TREC-9)

共引文献346

1林旭东,孙爱东,林丕源,刘汉兴.基于依存关系与支持向量机的中文问题分类方法[J].郑州大学学报（理学版）,2009,41(1):64-68. 被引量：2
2张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
3杨潇,万建成,侯金奎.面向问题分类的汉语句法分析[J].计算机研究与发展,2007,44(z2):27-31. 被引量：1
4王婧.基于自动问答技术的智能文本机器人[J].科技创业家,2013(8):11-11. 被引量：1
5姜卯生,王浩,姚宏亮.朴素贝叶斯分类器增量学习序列算法研究[J].计算机工程与应用,2004,40(14):57-59. 被引量：10
6杨森,徐海涛,柴乔林.应用支持向量机实现增量入侵检测[J].计算机工程与应用,2004,40(27):142-143. 被引量：1
7张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
8张晶晶,梁意文.染色体识别模型的群体有效性[J].计算机工程与应用,2004,40(31):44-45.
9李家春,李之棠.分布式入侵告警关联分析[J].计算机研究与发展,2004,41(11):1919-1923. 被引量：6
10陈康,武港山.基于Ontology的信息检索技术研究[J].中文信息学报,2005,19(2):51-57. 被引量：29

同被引文献94

1扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
2李珀瀚,何震瀛,向河林.一种基于链接聚类的查询扩展算法[J].计算机研究与发展,2011,48(S3):197-204. 被引量：2
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
4姜卯生,王浩,姚宏亮.朴素贝叶斯分类器增量学习序列算法研究[J].计算机工程与应用,2004,40(14):57-59. 被引量：10
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6高洁,吉根林.一种增量式Bayes文本分类算法[J].南京师范大学学报（工程技术版）,2004,4(3):49-52. 被引量：3
7Gai-TaiHuang,Hsiu-HsenYao.Chinese Question-Answering System[J].Journal of Computer Science & Technology,2004,19(4):479-488. 被引量：2
8林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
9张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
10余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20

引证文献7

1曾谁飞,张笑燕,杜晓峰,陆天波.改进的朴素贝叶斯增量算法研究[J].通信学报,2016,37(10):81-91. 被引量：11
2张宁,朱礼军.中文问答系统问句分析研究综述[J].情报工程,2016,2(1):32-42. 被引量：14
3吴国文,庄千料.一种改进的增量式贝叶斯文本分类算法[J].计算机应用与软件,2017,34(6):226-229. 被引量：4
4李梦婷,赵帅,陈绍炜,黄登山.基于增量贝叶斯学习模型的在线电路故障诊断[J].计算机应用与软件,2018,35(6):70-75. 被引量：3
5柔特,才让加.基于循环卷积神经网络的藏文句类识别[J].中文信息学报,2019,33(12):76-82. 被引量：3
6李海,孙婷逸,程新宇.基于增量贝叶斯的双偏振气象雷达降水粒子分类方法[J].雷达科学与技术,2022,20(3):319-327. 被引量：3
7王娟,侯丽.医疗健康领域问题分类探析[J].医学信息学杂志,2023,44(12):20-28. 被引量：2

二级引证文献40

1符颖,王星,周一鹏,范翔宇.基于改进半监督朴素贝叶斯的LPI雷达信号识别[J].系统工程与电子技术,2017,39(11):2463-2469. 被引量：7
2乔霈,王素格,陈鑫,谭红叶,陈千,王元龙.基于词语关联的散文阅读理解问题答案获取方法[J].中文信息学报,2018,32(3):135-142. 被引量：4
3贺佳,杜建强,聂斌,熊旺平,罗计根.智能问答系统在医学领域的应用研究[J].医学信息,2018,31(14):16-19. 被引量：4
4孙泽健,司光亚,刘洋.面向兵棋演习的问答系统问句分类模型研究[J].计算机与数字工程,2019,47(2):308-313. 被引量：4
5付华,孟繁东.基于VMD双狼群算法的电网单相接地故障选线优化[J].计算机应用与软件,2019,36(2):269-273. 被引量：4
6潘峻岚,束红,程予希.基于动态赋能的智能家居网络安全防御系统设计研究[J].电脑知识与技术,2019,15(2):45-47. 被引量：2
7钟新成.基于特征加权的朴素贝叶斯学情预警分类研究[J].山西大同大学学报（自然科学版）,2019,35(2):46-49. 被引量：2
8陈勇,周晓锋,李帅.铝电解关键指标预测方法的研究与应用[J].计算机工程与应用,2019,55(12):250-258.
9张扬武,李国和,王立梅,宗恒,赵晶明.一种基于PCA的文本特征混合选择方法[J].计算机应用与软件,2019,36(10):23-29. 被引量：9
10许文杰,束红.基于MOOC平台的学习监督系统设计与研究[J].电脑知识与技术,2019,15(8):99-100.

1许莉,王大玲,夏秀峰.基于句法和语义信息的问句特征提取方法[J].计算机工程,2010,36(21):65-66. 被引量：6
2毕晓君,彭伟.基于改进贝叶斯优化算法的图像分割方法[J].应用科技,2010,37(12):19-22. 被引量：1
3冯祖洪,李静.基于主成分分析的改进贝叶斯网络入侵检测研究[J].现代电子技术,2012,35(19):73-75. 被引量：4
4丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量：14
5杨思春,高超,秦锋,戴新宇,陈家骏.融合基本特征和词袋绑定特征的问句特征模型[J].中文信息学报,2012,26(5):46-52. 被引量：8
6龚伦峰,黄丽.基于免疫机制的改进贝叶斯优化算法研究[J].考试周刊,2014(1):136-137.
7刘建峰,吕佳.融合主动学习的改进贝叶斯半监督分类算法研究[J].计算机测量与控制,2014,22(6):1938-1940. 被引量：4
8李静,冯祖洪.主成分分析法改进贝叶斯网络入侵检测[J].中国教育网络,2012(4):48-50.
9赵治国,谭敏生,李志敏.基于改进贝叶斯的垃圾邮件过滤算法综述[J].南华大学学报（自然科学版）,2006,20(1):33-38. 被引量：4
10任冷,周维民.针对非平衡多分类问题SVM算法的优化研究与应用[J].电脑知识与技术,2016,12(2Z):218-220. 被引量：4

计算机工程

2014年第9期

浏览历史

内容加载中请稍等...

基于增量式贝叶斯模型的中文问句分类研究被引量：7

参考文献12

二级参考文献64

共引文献346

同被引文献94

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于增量式贝叶斯模型的中文问句分类研究 被引量：7

参考文献12

二级参考文献64

共引文献346

同被引文献94

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于增量式贝叶斯模型的中文问句分类研究被引量：7