基于支持向量机的先秦诸子典籍自动分类研究被引量：10

Research of Automatic Classification for Pre-Qin Philosophers Literature Based on the Support Vector Machine

导出

摘要 [目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。：[Purpose/significance] In order to deeply and accurately mine the knowledge from the ancient classics, the automatic classification of Pre-Qin Literature is implemented at the background of the rising of humanities computing. [Method/process] Based on the training and testing corpus which consisted of 9 kinds of full texts of the Analects of Confucius, Laozi, Guanzi, Zhuangzi, Xunzi, Han Fei Zi, Mencius, Xunzi and Mozi, the paper finished experiments about the automatic classification of Pre-Qin Philosophers Literature by the support vector machine which used the feature selection, which included TF-IDF, information gain, Chi-square statistics and mutual information determined by the method of statistics rules. [Result/conclusion] The classification models based on the support vector machine are obtained under 4 different feature selection methods for Pre-Qin Philosophers Literature. The best F-measure of classification model reaches 99.21% which has favorable effect and the value of promotion and application.

作者王东波何琳黄水清

机构地区南京农业大学信息科学技术学院南京农业大学领域知识关联研究中心

出处《图书情报工作》 CSSCI 北大核心 2017年第12期71-76,共6页 Library and Information Service

基金国家社科基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(项目编号:15ZDB127) 南京农业大学人文社科基金项目(项目编号:SKPT2016001) 国家社会科学基金青年项目"哈佛燕京学社汉学引得丛刊研究"(项目编号:12CTQ019)研究成果之一

关键词先秦典籍支持向量机自动分类古文信息处理 Pre-Qin Literature support vector machine automatic classification ancient Chinese character information processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1赵生辉,朱学芳.我国高校数字人文中心建设初探[J].图书情报工作,2014,58(6):64-69. 被引量：90
2代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
3刘志刚,李德仁,秦前清,史文中.支持向量机在多类分类问题中的推广[J].计算机工程与应用,2004,40(7):10-13. 被引量：150
4李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
5年洪东,陈小荷,王东波.现当代文学作品的作者身份识别研究[J].计算机工程与应用,2010,46(4):226-229. 被引量：21
6王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2010,36(6):28-39. 被引量：37
7王东波,苏新宁,朱丹浩,年洪东.基于支持向量机的医学期刊文章自动分类研究[J].情报理论与实践,2011,34(4):115-118. 被引量：11
8黄水清,王东波,何琳.以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J].图书情报工作,2015,59(11):127-133. 被引量：21
9金敏.《管子·明法》与《韩非子·有度》比较[J].中外法学,1997,9(6):111-113. 被引量：2

二级参考文献78

1翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
2曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报（哲学社会科学版）,2006(1):14-17. 被引量：21
3马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
4李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
5武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
6何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729. 被引量：19
7黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
8林穗芳.罗伯托·布萨和世界最早用计算机辅助编辑的巨著《托马斯著作索引》[J].河南大学学报（社会科学版）,2007,47(4):167-174. 被引量：17
9钱锋,陈光磊.关于发展汉语计算风格学的献议[M]//胡裕树,宗廷虎.修辞学发凡与中国修辞学.上海:复旦大学出版社,1983.
10Yule G U.On sentence length as a statistical characteristic of style in prose with application to two cases of disputed authorship[J]. Biometrika, 1938,30 : 363-390.