基于修正SVM-KNN组合算法的汉语专有名词自动抽取被引量：2

Automatic Extraction on Chinese Proper Names Based on a Modified SVM-KNN Classifier

下载PDF

导出

摘要专有名词的自动抽取是文本挖掘、信息检索和机器翻译等领域的关键技术。本文研究了组合SVM和KNN两种分类器进行汉语专有名词自动抽取的方法。对样本在空间的不同分布使用不同的分类方法,当测试样本与SVM最优超平面的距离大于给定的阈值时使用SVM分类,否则使用KNN;在实际训练语料中,常常是负类样本数远多于正类样本数,而传统KNN方法对不平衡训练集存在敏感性,所以提出了用归一化的思想对传统的KNN方法进行修正。实验表明,用SVM与修正的KNN组合算法进行汉语专有名词抽取比单一的SVM方法以及原始的SVM-KNN方法更具优越性,而且这种方法可以推广到其他非平衡分布样本的分类问题。 Extracting Chinese proper names is a key step in the fields of text mining,information retrieval and machine translation.This paper presents a method of extracting proper names from Chinese texts based on the fusion of support vector machine（SVM）and modified K nearest neighbors（KNN）.Different classifiers are used for classifying the different test samples in spatial distributions.In the class phase,the algorithm computes the distance from the test sample to the hyperplane of SVM.If the distance is greater than the given threshold,the test sample would be classified on SVM; otherwise,the KNN algorithm will be used.In the practical training corpora,the negative class is represented by a large number of examples while the positive one is represented by only a few.To fit the unbalanced data,a normalized KNN classifier is proposed to modify classic KNN.The experimental results show that this model is more efficient than sole SVM and classic SVM-KNN in extracting Chinese proper names.The modified SVM-KNN model can be generalized to other fields of machine learning with unbalanced class distribution.

作者李丽双党延忠李丹

机构地区大连理工大学计算机学院大连理工大学系统工程研究所

出处《情报学报》 CSSCI 北大核心 2011年第6期610-617,共8页 Journal of the China Society for Scientific and Technical Information

基金国家高技术研究发展计划（863计划）资助（No.2008AA04Z107）

关键词 KNN SVM 专有名词抽取不平衡数据 SVM KNN extraction of proper names unbalanced data distribution

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
2姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
3张玥杰,徐智婷,薛向阳.融合多特征的最大熵汉语命名实体识别模型[J].计算机研究与发展,2008,45(6):1004-1010. 被引量：32
4Li L S,Ding Z Y,Huang D G,et al.A hybrid model based on CRFs for Chinese named entity recognition[C] //International Conference on Advanced Language Proce-ssing and Web Information Technology (Alpit 2008),Dalian,2008:127-132.
5李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
6Vapnik V N.Statistical Learning Theory[M].New York:John Wiley & Sons,1996.
7Alireza M,Lilly S A,Ali M.A new fuzzy support vector machine method for Named Entity Recognition[C] //Proceedings of the 2008 International Conference on Computer Science and Information Technology,Singapore:2008:24-28.
8Zdeněk J K.Crech Named Entity Corpus and SVM-based Recognizer[C] //Proceedings of the 2009 Named Entities Workshop,ACL-IJCNLP,Singapore:2009:194-201.
9李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748. 被引量：133
10Vapnik V N.Statistical Learning Theory[M].New York:John Wiley & Sons,1998.

二级参考文献53

1王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
2赵健,王晓龙,关毅.中文名实体识别中的特征组合与特征融合的比较[J].计算机应用,2005,25(11):2647-2649. 被引量：7
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
4姜维,王晓龙,关毅,徐志明.应用粗糙集理论提取特征的词性标注模型[J].高技术通讯,2006,16(10):996-1000. 被引量：3
5巩军,刘鲁.一种k-NN文本分类器的改进方法[J].情报学报,2007,26(1):56-59. 被引量：10
6王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
7王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
8Kim H,Howland P,Park H.Dimension reduction in text classification with support vector machines[J].Journal of Machine Learning Research,2005,6(1):37-53.
9Forman G.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3(1):1533-7928.
10Rogati M,Yang Y.High-Performing feature selection for text classification[C]//David G,Kalpakis K,Sajda Q,Han D,Len S,eds.Proc.of the 11th ACM Int'l Conf.on Information and Knowledge Management (CIKM-02).McLean:ACM Press,2002:659-661.

共引文献232

1高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
2万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：58
3赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
7王淑盛,徐正光,刘黄伟,王志良,史立峰.改进的K近邻方法在岩性识别中的应用[J].地球物理学进展,2004,19(2):478-480. 被引量：13
8施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
9张强,杨子龙,盛纲.浅谈SVM及其与KNN的联系[J].电脑知识与技术,2005(2):85-86.
10陈虎虎,钟方平,许学忠,董明荣.基于支持向量机的低空飞行目标声识别[J].系统工程与电子技术,2005,27(1):46-48. 被引量：11

同被引文献24

1张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
2Hendrickx I, Kim S N, Kozareva Z, et al. Semeval-2010 task 8: Multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. [S. 1. ]. Association for Computational Linguistics, 2009:94-99.
3Rink B, Harabagiu S. A generative model for unsupervised discovery of relations and argument classes from clinical texts [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.[S. 1. ] . Association for Compu- tational Linguistics, 2011:519-528.
4Tratz S, Hovy E. ISI.- Automatic classification of relations between nominals using a maximum entropy classifier[C]//Pro- ceedings of the 5th International Workshop on Semantic Evaluation. [S. 1. ]: Association for Computational Linguistics, 2010:222-225.
5Choi S P, Lee S, Jung H, et al. An intensive case study on kernel-based relation extraction[J]. Multimedia Tools and Appli- cations, 2013 : 1-27.
6Punyakanok V, Roth D, Yih W. The importance of syntactic parsing and inference in semantic role labeling[J]. Computa- tional Linguistics, 2008,34 (2) : 257-287.
7王保芳,张瑞强.关于对数线性模型在词性标注中的应用[J].计算机科学,2008,35(5):163-166. 被引量：1
8闫志刚,杜培军.多类支持向量机推广性能分析[J].数据采集与处理,2009,24(4):469-475. 被引量：7
9张中华,张端金.一种新的变步长LMS自适应滤波算法及性能分析[J].系统工程与电子技术,2009,31(9):2238-2241. 被引量：43
10邓擘,郑彦宁,傅继彬.汉语实体关系模式的自动获取研究[J].计算机科学,2010,37(2):183-185. 被引量：3

引证文献2

1董跃华,邓文龙.基于BP-HMM的词性标注方法的研究[J].计算机工程与设计,2014,35(4):1424-1428. 被引量：1
2刘绍毓,周杰,李弼程,席耀一,唐浩浩.基于多分类SVM-KNN的实体关系抽取方法[J].数据采集与处理,2015,30(1):202-210. 被引量：20

二级引证文献21

1郭继昌,季文驰,顾翔元.基于改进逻辑回归分类算法的LSB匹配隐写检测[J].数据采集与处理,2015,30(6):1160-1168.
2郭金玲,樊东燕,郭虎升.一种动态的主动多分类方法[J].数据采集与处理,2016,31(1):152-159.
3郭金玲.极坐标核在样本分类问题中的应用研究[J].太原师范学院学报（自然科学版）,2016,15(1):43-46.
4陈跃.改进可拓理论的带钢表面缺陷图像分类方法[J].南京师范大学学报（工程技术版）,2016,16(3):54-62. 被引量：1
5齐爱芹,徐蔚然.基于词向量的实体链接方法[J].数据采集与处理,2017,32(3):604-611. 被引量：2
6温俊芹,王修晖.基于线性判别分析和自适应K近邻法的手势识别[J].数据采集与处理,2017,32(3):643-648. 被引量：7
7王红斌,李金绘,沈强,线岩团,毛存礼.基于最大熵的泰语句子级实体从属关系抽取[J].南京大学学报（自然科学版）,2017,53(4):738-746. 被引量：2
8牟廉明,刘好斌.基于特征选择的相对k子凸包分类方法[J].数据采集与处理,2017,32(5):1005-1011.
9高凤帅,杨化斌.结合词语规则和SVM模型的军事命名实体关系抽取方法[J].信息通信,2017,30(11):162-163. 被引量：1
10胡文,宰祥顺.基于BP神经网络与隐马尔科夫模型的推荐算法[J].哈尔滨商业大学学报（自然科学版）,2017,33(5):551-555. 被引量：5

1岑涌,罗林开.一种改善非平衡分布数据SVM分类能力的新策略[J].计算机与数字工程,2006,34(11):103-105. 被引量：3
2江铭虎,林碧琴,袁保宗,许晓斌.BP网络不平衡训练样本集的有效学习算法[J].电子科学学刊,1999,21(3):412-415.
3姚全珠,田元,王季,杨增辉,张楠.基于最小二乘支持向量机的非平衡分布数据分类[J].计算机工程与应用,2008,44(5):166-169. 被引量：5
4陶晓燕,姬红兵,董淑福.用于非平衡样本分类的近似支持向量机[J].模式识别与人工智能,2007,20(4):552-557. 被引量：1
5李兵.基于分布式入侵检测的负载平衡调度算法[J].信息技术,2008,32(2):5-7. 被引量：1
6戴宏亮.基于实值遗传算法与TAFSVM的遥感图像分类[J].计算机工程与应用,2010,46(4):4-7. 被引量：1
7王春玉,苏宏业,渠瑜,褚健.一种基于过抽样技术的非平衡数据集分类方法[J].计算机工程与应用,2011,47(1):139-143. 被引量：8
8胡小生,钟勇.基于加权聚类质心的SVM不平衡分类方法[J].智能系统学报,2013,8(3):261-265. 被引量：4
9施进发,焦合军,赵群力,丁钰.公共云环境下的多租户数据隐私研究[J].计算机工程与应用,2016,52(20):138-144. 被引量：2
10林俊杰.2005年国际研发三大亮点[J].世界科学,2005,27(11):9-10.

情报学报

2011年第6期

浏览历史

内容加载中请稍等...

基于修正SVM-KNN组合算法的汉语专有名词自动抽取被引量：2

参考文献13

二级参考文献53

共引文献232

同被引文献24

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于修正SVM-KNN组合算法的汉语专有名词自动抽取 被引量：2

参考文献13

二级参考文献53

共引文献232

同被引文献24

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于修正SVM-KNN组合算法的汉语专有名词自动抽取被引量：2