一种基于逆向匹配算法的中文文本分类技术被引量：3

Technology for Chinese text categorization based on reverse matching algorithm

下载PDF

导出

摘要针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。 Concerning Chinese text categorization, a reverse matching algorithm was proposed. The basic idea was to construct a weighted value of classification subject terms list firstly, then use keywords in the list to reverse match in documentations. After that, the sum of weights of these key words that had been matched successfully was calculated, in the end the maximum was taken as the result of the classification. The algorithm can avoid the difficulty of Chinese word segmentation and its influence on accuracy of result. Theoretical analysis and experimental results indicate that the accuracy and the time efficiency of the algorithm are higher, whose comprehensive performance reaches to the level of current major technology.

作者刘新刘任任

机构地区湘潭大学信息工程学院

出处《计算机应用》 CSCD 北大核心 2008年第4期945-947,共3页 journal of Computer Applications

基金国家自然科学基金资助项目(60673193) 湖南省教育厅一般项目(07C750) 湖南省教育厅划块项目(06C870)

关键词文本分类逆向匹配算法增益权值主题词表 text categorization reverse matching algorithm gain weight subject terms list

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李晓明,闫宏飞,王继民.搜索引擎-原理、技术与系统[M].北京:科学出版社,2004:1-5.
2JOACHIMS T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features [ EB/OL]. [ 2007 - 10 - 02]. http://www-ai. informatik. uni-dormund. de/ls8-repots. html.
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4LEWIS D D. Navie(Bayes) at forty: the independence assumption in information retrieval[ C]// The 10th European Conference on Machine Learning. New York: Spring, 1998:4 - 15.
5PAN J S, QIAO Y L, SUN S H. A fast K nearest neighbors classification algorithm[ J]. IEICE Transactions on Fundamentals of Electronics Communications and Computer Sciences, 2004, E87-A(4) : 961 - 963.
6王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17
7严蔚敏吴伟民.数据结构[M].北京：清华大学出版社,1997..
8谭松波.DRAP文本分类训练系统[EB/OL].[2007-10-02].http://www.searchforum.org.cn/tansongbo/.

二级参考文献18

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.
3Y. Yang, X. Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf. onResearch and Development in the Information Retrieval. NewYork: ACM Press, 1999.
4Y. Yang, C. G. Chute. An example based mapping method for text categorization and retrieval. ACM Trans. on Information Systems, 1994, 12(3): 252 -277.
5E. Wiener. A neural network approach to topic spotting. The 4th Annual Syrup. on Document Analysis and Information Retrieval,Las Vegas, NV, 1995.
6R. E. Schapire, Y. Singer. Improved boosting algorithms using confidence-rated predications. In: Proc. of the 11th Annual Conf.on Computational Learning Theory. New York: ACM Press,1998. 80--91.
7T. Joachims. Text categorization with support vector machines:Learning with many relevant features. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998. 137-142.
8Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) : 76-- 88.
9R. Adwait. Maximum entropy models for natural language ambiguity resolution: [ Ph. D. dissertation ] . Pennsylvania:University of Pennsylvania, 1998.
10R. Adwait. A maximum entropy model for part-of-speech tagging. The Empirical Methods in Natural Language Processing Conference, Philadelphia, USA, 1996.

共引文献393

1施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
2苏盛,K.K.Li,曾祥君,陈超强,陈兴宇.通用变电站操作票生成方法的研究[J].电网技术,2004,28(14):15-18. 被引量：8
3杨公平,曾广周,卢朝霞.迁移工作流系统中停靠站服务器的设计与实现[J].计算机工程与应用,2004,40(19):111-112. 被引量：5
4周远成,乞建勋,张立辉.网络计划优化技术中顺序优化的编程模式与算法设计[J].运筹与管理,2004,13(5):47-50. 被引量：3
5周书葵,许仕荣.城市供水管网水质监测点优化选址的研究[J].南华大学学报（自然科学版）,2004,18(3):62-66. 被引量：9
6陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
7吴一民,徐建闽,胡郁葱.一种基于层次图模型的最优路径算法[J].计算机工程与设计,2005,26(2):317-319. 被引量：8
8陈智斌,余永权,杨少敏.基于可拓学的球墨铸铁石墨形态识别[J].中国工程科学,2005,7(3):84-89. 被引量：3
9刘晓利,秦奋涛.有向图的强连通性分析及判别算法[J].计算机应用与软件,2005,22(4):138-139. 被引量：7
10胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47

同被引文献14

1李美满,易德成.通用考试系统开放题库与组卷及评卷算法研究[J].计算机工程与设计,2005,26(10):2743-2745. 被引量：25
2李小红,许少华.基于模糊向量和BP网络的Web文本自动分类方法[J].福建电脑,2006,22(2):94-95. 被引量：2
3杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
4李莉,张太红.LSA在中文短文自动判分系统中的应用研究[J].计算机工程与应用,2007,43(20):177-180. 被引量：4
5南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报（自然科学版）,2007,33(3):191-194. 被引量：14
6佟晓筠,宋国龙,刘强,张俐,姜伟.中文分词及词性标注一体化模型研究[J].计算机科学,2007,34(9):174-175. 被引量：10
7马秀麟,白凤凤.基于知识管理的网络学习资源的组织[J].中国教育信息化（高教职教）,2007(10S):60-62. 被引量：10
8丁卫平,管致锦,陈建平.基于程序设计主观题智能阅卷算法的应用研究[J].计算机技术与发展,2007,17(11):205-208. 被引量：8
9丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
10张以利.匈牙利算法在主观题自动批阅中的应用研究[J].南京工业职业技术学院学报,2007,7(2):73-75. 被引量：7

引证文献3

1马秀麟,金海燕.基于关键词标注的教学论坛内容组织方法研究[J].现代教育技术,2009,19(12):87-90. 被引量：5
2李玉红,柴林燕,张琪.结合分词技术与语句相似度的主观题自动判分算法[J].计算机工程与设计,2010,31(11):2663-2666. 被引量：9
3陆红蕾.文本分类技术在网络基础教学资源中的应用[J].漯河职业技术学院学报,2012,11(2):50-52. 被引量：1

二级引证文献15

1郑炜冬.试卷相似度自动评估技术的研究[J].智能计算机与应用,2011,1(4):16-19.
2邸书灵,刘晓飞,李欢.基于分词的语句相似度计算的改进[J].石家庄铁道大学学报（自然科学版）,2011,24(4):94-97. 被引量：2
3冯光,乔丹丹,常静怡.基于分词匹配的主观题自动评阅技术研究[J].计算机与现代化,2013(3):212-214. 被引量：4
4陈思怀,朱周福,唐发书.动物组织学与胚胎学实验课程自动评分试题库构建[J].黑龙江畜牧兽医,2013(10):159-160. 被引量：1
5殷耀明,张东站.基于关系向量模型的句子相似度计算[J].计算机工程与应用,2014,50(2):198-203. 被引量：18
6胡恩博,余腊生.一种基于中文分词的主观题自动评分优化算法研究[J].长沙大学学报,2014,28(5):59-61.
7马秀麟,毛荷,岳超群,蒋珊珊.从实证分析的视角看MOOC的利与弊[J].中国教育信息化（基础教育）,2014(11):3-6. 被引量：30
8沈加.关于高校教学资源的自动分类研究[J].福建电脑,2015,31(5):101-102.
9马秀麟,岳超群,蒋珊珊.大数据时代网络学习资源组织策略的探索[J].现代教育技术,2015,25(7):82-87. 被引量：23
10刘欣.基于自然语言识别技术的装备财务信息管理系统应用研究[J].舰船电子工程,2015,35(7):127-131. 被引量：1

1刘新,刘任任.一种基于主题词表的快速中文文本分类技术[J].情报学报,2008,27(3):323-327. 被引量：1
2宋晔,张敏.基于文本分类的搜索引擎的设计与实现[J].软件导刊,2012,11(8):87-88.
3徐飞,孙劲光.中文分词切分技术研究[J].计算机工程与科学,2008,30(5):126-128. 被引量：16
4李瑞芳,孙健,李娜.基于计算机自动分词的研究[J].沈阳化工学院学报,2008,22(3):255-259. 被引量：3
5任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
6黄志艳.一种基于信息增益的特征选择方法[J].山东农业大学学报（自然科学版）,2013,44(2):252-256. 被引量：11
7胡颖.基于信息增益的文本特征选择方法[J].计算机与数字工程,2013,41(3):460-462. 被引量：6
8田学东,王菲.一种改进的公式结构分析方法[J].计算机应用与软件,2008,25(4):40-42. 被引量：1
9徐飞,孙劲光.基于一种粗切分的最短路径中文分词研究[J].计算机与信息技术,2007(11):32-34. 被引量：1
10吴湘华,张祖平.Apriori算法中频繁项集求法的改进[J].科技创新与应用,2013,3(15):58-58. 被引量：1

计算机应用

2008年第4期

浏览历史

内容加载中请稍等...

一种基于逆向匹配算法的中文文本分类技术被引量：3

参考文献8

二级参考文献18

共引文献393

同被引文献14

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

一种基于逆向匹配算法的中文文本分类技术 被引量：3

参考文献8

二级参考文献18

共引文献393

同被引文献14

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

一种基于逆向匹配算法的中文文本分类技术被引量：3