基于支持向量机的汉语问句分类被引量：20

Chinese Question Classification Based on Support Vector Machine

下载PDF

导出

摘要目前汉语问句分类一般都依据疑问词及其相关词的组合规则,但由于规则的提取很深地依赖于语言知识,而且很难穷举出所有的特征规则,因此会影响分类的效果.支持向量机(SVM)是建立在统计理论基础上的机器学习方法,对于小样本分类问题有很好的识别效果.文中分析和定义了汉语问句的类型,建立了以SVM为基础的问句分类模型,详细描述了问句分类特征的选取过程,并在句法特征的基础上引入语义特征进行汉语问句分类实验,分类准确率达88.7%,表明结合句法和语义特征以SVM进行汉语问句分类具有很好的效果. At present, Chinese question classification is commonly based on the combinatorial rules between the interrogatives and their interrelated words. Because the extraction of the combinatorial rules greatly depends on language knowledge and not all combinatorial rules can be listed, the classification performance is not desirable. As the SVM （Support Vector Machine）, a machine learning method based on the statistical theory, possesses excellent discriminating effect on small sample classification, this paper establishes a question classification model based on SVM after the analysis and definition of Chinese question types. The process of the feature selection for question classification is then described in detail. Finally, a question classification experiment is carried out by introducing corresponding semantic features based on syntactic features, with a classification accuracy of 88.7% being achieved, which indicates that Chinese questions can be excellently classified by means of SVM with the combination of syntactic features and semantic features.

作者余正涛樊孝忠郭剑毅

机构地区昆明理工大学信息工程与自动化学院北京理工大学计算机科学与工程系

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第9期25-29,34,共6页 Journal of South China University of Technology(Natural Science Edition)

基金云南省信息技术基金资助项目(2002IT03)

关键词问答系统问句分类支持向量机句法特征语义特征 question-answering system question classification support vector machine syntactic feature semantic feature

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2257
2郑实福,刘挺,秦兵,李生.自动问答综述[J].中文信息学报,2002,16(6):46-52. 被引量：165
3郑实福.[D].哈尔滨:哈尔滨工业大学计算机科学与工程系,2002.
4Li Xin, Roth Dan. Learning question classifier [A]. Proceedings of the 19th International Conference on Computational Linguistics [C]. Taipei: Morgan Kaufmann Publishers ,2002.556 - 562.
5Li Xin, Roth Dan, Small Kevin. The role of semantic information in learning question classifiers [A]. Proceedings of the 1st International Joint Conference on Natural Language Processing [C]. Berlin: Spring-Verlag,2004.451 -458.
6Zhang Dell, Lee Wee Sun. Question classification using support vector machines [A]. Proceedings of the 26th annual international ACM SIGIR Conference on Research and Development in Informaion Retrieval [C]. New York: ACM Press ,2003.26 - 32.
7Hacioglu Kadri, Ward Wayne. Question classification using support vector machines and error correcting code[A]. Proceedings of HLT-NACCL 2003 [C]. Edmonton,2003.28 - 30.
8Roth Dan, Cumby Chad, Li Xin, et al. Question-answering via enhanced understanding of questions [A]. Proceedings of the 1 1th Text Retrieval Conference [C]. Gait hersburg: NIST Special Publication, 2002. 667 - 676.
9Hermjakob U. Parsing and question classification for question answering [A]. ACL-2001 Workshop on Open-Domain Question Answering [C]. Toulouse, 2001. 255 -262.
10Taira Jun Suzuki, Sasaki Yutaka, Maeda Eisaku. Question classification using HDAG kernel [A]. ACL Workshop on Mulitilingual Summarization and Question Answering [C]. Sapporo,2003.61 - 68.

二级参考文献23

1[8]Ulf Hermjakob. Parsing and Question Classification for Question Answering. Proceeding of the workshop on Open-Domain Question Answering at ACL-2001
2[9]Eugene Agichtein, Steve Lawrence, Luis Gravano. Learning Search Engine Specific Query Transformations for Question Answering. ACM 2001,169- 178
3[10]Soo-Min Kim, ae-Ho Baek, Sang-Beom Kim, Hae-Chang Rim Question Answering Considering Semantic Categories and Co-occurrence Density. Proceedings of the night Text Retrieval Conference (TREC-9)
4[11]Marius Pasca, Sanda Harabagiu. High-Performance Question/Answering. 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval ( Sigir-01 ). New Orleans, LA. September 9 - 13,2001
5[1]Ittycheriah,M. Franz,W-J Zhu,A. Ratnaparkhi. IBM's Statistical Question Answering System. Proceedings of the night Text Retrieval Conference (TREC-9)
6[2]D. Elworthy. Question Answering Using a Large NLP System. Proceedings of the night Text Retrieval Conference (TREC-9)
7[3]L. Wu,X-j Huang,Y. Guo,B. Liu,Y. Zhang. FDU at TREC-9:CLIR,Filtering and QA Tasks. Proceedings of the night Text Retrieval Conference(TREC-9)
8[4]R.J. Cooper, S. M. Rüger. A Simple Question Answering System. Proceedings of the night Text Retrieval Conference(TREC-9)
9[5]C.L.A. Clarke, G. V. Cormack, D. I. E. Kisman, T. R. Lynam. Question Answering by Passage Selection. Proceedings of the night Text Retrieval Conference (TREC-9)
10[6]S-M Kim,D-H Baek,S-B Kim,H-C Rim. Question Answering Considering Semantic Categories and CoOccurrence Density. Proceedings of the night Text Retrieval Conference(TREC-9)

共引文献2474

1白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：2
2曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：8
3乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
4孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：3
5田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2
6张磊,夏士雄,牛强.基于SVM二叉决策树方法的矿井提升机故障诊断[J].微计算机信息,2008,24(10):198-199. 被引量：4
7瞿伟廉,谭冬梅.基于小波分析和支持向量机的结构损伤识别[J].武汉理工大学学报,2008,30(2):80-82. 被引量：3
8郑树剑,刘冀伟,何积铨,韩旭.基于支持向量机的混凝土结构中钢筋腐蚀的判别[J].电子器件,2007,30(5):1935-1938.
9殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报（自然科学与医学版）,2006,27(3):363-367. 被引量：4
10王宇,丁萍,吴峻.基于SVM的光纤陀螺标度因数建模研究[J].舰船电子工程,2008,28(5):78-80. 被引量：1

同被引文献225

1吴怡,韩相如,钱东福.新型冠状病毒肺炎疫情期间大学生心理健康状况研究[J].中国健康教育,2020,36(8):697-700. 被引量：38
2扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
4车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
5李明琴,李涓子,王作英,陆大.中文语义依存关系分析的统计模型(英文)[J].计算机学报,2004,27(12):1679-1687. 被引量：9
6张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
7胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
8余正涛,樊孝忠,宋丽哲,高盛祥.汉语问答系统答案提取方法研究[J].计算机工程,2006,32(3):183-185. 被引量：8
9文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
10张亮,黄河燕,胡春玲.基于Ontology的中文问答系统问题分类研究[J].中国图书馆学报,2006,32(2):60-65. 被引量：3

引证文献20

1林旭东,孙爱东,林丕源,刘汉兴.基于依存关系与支持向量机的中文问题分类方法[J].郑州大学学报（理学版）,2009,41(1):64-68. 被引量：2
2余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
3余正涛,毛存礼,邓锦辉,章程,郭剑毅.基于模式学习的中文问答系统答案抽取方法[J].吉林大学学报（工学版）,2008,38(1):142-147. 被引量：7
4罗斌,郑爱华,汤进.基于模糊多类SVM的图像检索相关反馈[J].华南理工大学学报（自然科学版）,2008,36(9):107-112. 被引量：3
5许德山,张智雄,赵妍.中文问句与RDF三元组映射方法研究[J].图书情报工作,2011,55(6):45-48. 被引量：4
6孙树亮,林雪云.基于记忆的SVM相关反馈算法[J].计算机科学,2011,38(10):256-258. 被引量：4
7杨思春,高超,戴新宇,陈家骏.基于SVM的中文查询分类[J].情报学报,2011,30(9):946-950. 被引量：2
8刘小明,樊孝忠,李方方.一种结合本体和焦点的问题分类方法[J].北京理工大学学报,2012,32(5):498-502. 被引量：8
9杨思春,高超,戴新宇,陈家骏,杨思国.基于词袋绑定的问句新特征自动生成[J].北京理工大学学报,2012,32(6):590-595. 被引量：2
10杨思春,高超,秦锋,戴新宇,陈家骏.融合基本特征和词袋绑定特征的问句特征模型[J].中文信息学报,2012,26(5):46-52. 被引量：8

二级引证文献108

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：29
2王晓艳,赵政文,田振刚.基于章节本体和转移网络的自动答疑系统[J].计算机工程与应用,2009,45(24):207-209. 被引量：1
3张文浩,王文剑.一种基于关联规则的核粒度支持向量机[J].广西师范大学学报（自然科学版）,2009,27(3):89-92. 被引量：5
4毛煜,余正涛,孟祥燕,张志坤,许洋波,郭剑毅.中文问答对过滤方法研究[J].广西师范大学学报（自然科学版）,2009,27(3):142-145.
5战学刚,伏圣国,迟呈英.改进的基于模式匹配的答案抽取方法[J].情报理论与实践,2009,32(9):105-108. 被引量：1
6王凡帆.基于Ontology的自动答疑技术研究[J].煤炭技术,2010,29(5):174-176.
7李大湘,彭进业,贺进芳.基于视觉语义与RSSVM的图像检索[J].华南理工大学学报（自然科学版）,2010,38(4):156-161. 被引量：4
8黄鸿,冯海亮,何同弟.融合流形学习与相关反馈的人脸图像检索[J].华南理工大学学报（自然科学版）,2011,39(5):91-96. 被引量：3
9柳玉,贲可荣,马喆.基于知网的软件故障案例语义表示方法[J].海军航空工程学院学报,2011,26(3):341-346. 被引量：2
10李展,彭进业,温超.基于谱聚类和多示例学习的图像检索方法[J].华南理工大学学报（自然科学版）,2011,39(7):156-162. 被引量：4

1李文波,孙乐,诺明花,吴健.基于核方法的敏感信息过滤的研究[J].通信学报,2008,29(4):57-62. 被引量：8
2叶丹丽.“半A不B”的构式研究[J].文教资料,2014(30):164-167.
3陈书宜.13岁少年发明乐高盲文打印机（英文）[J].英语画刊（高级）,2015,0(7):2-4.
4麦范金,赵子强,岳晓光.基于语义相似度的主观题阅卷系统模型设计[J].微计算机信息,2009(18):255-256. 被引量：6
5杨进才,郭凯凯,沈显君,胡金柱.基于贝叶斯模型的复句关系词自动识别与规则挖掘[J].计算机科学,2015,42(7):291-294. 被引量：9
6Nithya Ruff.商业化开放原始码软件;这是一种“矛盾修饰法”吗?[J].电子与电脑,2010(3):47-47.
7王晓博,李晓,马博.基于频繁词义序列的检索结果聚类算法研究[J].计算机工程与应用,2015,51(1):13-20. 被引量：3
8荀恩东,赵铁军,李生.BT863-Ⅱ英汉机器翻译中译文选择方法[J].情报学报,1999,18(2):99-104. 被引量：1
9张立岩,张世民.基于语义相似度的主观题评分算法研究[J].河北科技大学学报,2012,33(3):263-265. 被引量：2
10邸鹏,李爱萍,段利国.基于转折句式的文本情感倾向性分析[J].计算机工程与设计,2014,35(12):4289-4295. 被引量：17

华南理工大学学报（自然科学版）

2005年第9期

浏览历史

内容加载中请稍等...

基于支持向量机的汉语问句分类被引量：20

参考文献13

二级参考文献23

共引文献2474

同被引文献225

引证文献20

二级引证文献108

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的汉语问句分类 被引量：20

参考文献13

二级参考文献23

共引文献2474

同被引文献225

引证文献20

二级引证文献108

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的汉语问句分类被引量：20