面向高考的现代文阅读材料体裁自动分类被引量：2

Text genre classification oriented to Chinese GaoKao reading comprehension

下载PDF

导出

摘要针对高考答题系统中现代文阅读理解的体裁自动分类问题,采用统计分析的方法分析文学作品和科技文在词性分布、标点符号和词汇使用上的差异,提出基于词性、符号和词汇特征的体裁分类特征抽取方法和基于类内和类间离差的特征评价方法,在此基础上使用SVM算法训练分类器。实验结果表明,特征抽取、特征选择、分类方法可行有效,分类器在高考测试集上平均准确率达到96%,能较好地解决高考语文现代文阅读材料体裁自动分类问题。 Aiming at the problem of genre auto classification in GaoKao reading comprehension,the differences between literary works and sci-tech articles in the usage of character,lexical and Part-of-Speech（POS）features were analyzed using statistical methods,based on which the feature abstraction methods for text genre classification were proposed.The feature selection method based on between-class deviation and within-class deviation was proposed.With these methods,the text genre classification features were constructed,and the classifier was trained using support vector machine method based on these features.Experimental results show the methods of features abstraction,feature selection and classification are feasible and effective.The average precision of the classifier reaches 96%above on GaoKao testing data-sets,which can efficiently solve the problem of reading texts genre auto classification in GaoKao reading comprehension.

作者苏雪峰李茹张虎 SU Xue-feng1 , LI Ru2,3, ZHANG Hu2(1. Department of Electronic Business, Business College of Shanxi University, Taiyuan 030031, China; 2. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China; 3. Key Laboratory of Ministry of Education for Computation Intelligence and Chinese Information Processing, Shanxi University, Taiyuan 030006, Chin)

机构地区山西大学商务学院电子商务系山西大学计算机与信息技术学院山西大学计算智能与中文信息处理教育部重点实验室

出处《计算机工程与设计》北大核心 2018年第6期1755-1760,1794,共7页 Computer Engineering and Design

基金国家863高技术研究发展计划基金项目(2015AA015407) 山西省自然科学基金项目(201601D102030)

关键词体裁分类词性特征符号特征词汇特征支持向量机 genre classification part-of-speech features character features lexical features support vector machine

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1方鸷飞,林鸿飞,杨志豪,赵晶.中文文本体裁的自动分类机制[J].中文信息学报,2006,20(2):24-32. 被引量：5
2邓琦,苏一丹,曹波,闭剑婷.中文文本体裁分类中特征选择的研究[J].计算机工程,2008,34(23):89-91. 被引量：8
3张书卿,周文,欧阳纯萍,饶婕,刘志明,阳小华.微博文本和传统文本体裁特征对比[J].南华大学学报（自然科学版）,2015,29(2):87-90. 被引量：1
4刘海峰,刘守生,宋阿羚.基于词频分布信息的优化IG特征选择方法[J].计算机工程与应用,2017,53(4):113-117. 被引量：9

二级参考文献33

1刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
2罗永莲,张永奎.基于混合特征的中文文本分类[J].电脑开发与应用,2005,18(4):4-5. 被引量：1
3方鸷飞,林鸿飞,杨志豪,赵晶.中文文本体裁的自动分类机制[J].中文信息学报,2006,20(2):24-32. 被引量：5
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
5王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
6黄臻臻,吴扬扬.基于体裁的中文网页分类的特征选取[J].计算机工程与设计,2007,28(11):2743-2745. 被引量：4
7Chul S, Kong Joo Lee. Multiple Sets of Features for Automatic Genre Classification of Web Documents[J]. Information Processing & Management, 2005, 41(5): 1263-1276.
8Brett K, Geoffrey N, Hinrich S. Automatic Detection of Text Genre[C]//Proc. of the 35th Annual Meeting on Association for Computational Linguistics. Madrid, Spain: [s. n.], 1997.
9Yong Bae Lee, Hyon M. Text Genre Classification with Genre-revealing and Subject-revealing Features[C]//Proc. of the 25th Annual lnt'l ACM SIGIR Conf. on Research and Development in Information Retrieval. Tampere, Finland: [s. n.], 2002.
10Aidan F, Nicholas K. Learning to Classify Documents According to Genre[J]. Journal of the American Society for Information Science and Technology, 2006, 57(11): 1506-1518.

共引文献18

1许璐蕾.面向搜索引擎的文本自动分类系统实现[J].苏州市职业大学学报,2007,18(4):79-81. 被引量：1
2罗勇.文本分类中改进的互信息特征选择方法研究[J].福建电脑,2009,25(4):82-83.
3朱颢东,钟勇.基于改进的ID3信息增益的特征选择方法[J].计算机工程,2010,36(8):37-39. 被引量：8
4黄文江,李翔,林祥.基于Chameleon算法的文本聚类技术研究[J].计算机技术与发展,2010,20(6):1-4. 被引量：2
5张志平.基于“中文新闻信息分类与代码”文本分类[J].太原理工大学学报,2010,41(4):402-405. 被引量：5
6朱颢东,钟勇.基于粗糙集与泛系等价算子的特征选择[J].计算机工程,2010,36(19):39-41. 被引量：1
7周瑞琼,朱颢东,吴洪丽.基于两种特征贡献度的特征选择[J].河南科技大学学报（自然科学版）,2010,31(5):44-47.
8张书卿,周文,欧阳纯萍,饶婕,刘志明,阳小华.微博文本和传统文本体裁特征对比[J].南华大学学报（自然科学版）,2015,29(2):87-90. 被引量：1
9万亚平,阳小华,刘志明,李治,张娟.社交网络用户行为的体裁互文性分析[J].计算机科学,2015,42(B11):268-272. 被引量：1
10李薇,肖仰华,汪卫.基于中文知识图谱的人物实体识别[J].计算机工程,2017,34(3):225-231. 被引量：8

同被引文献17

1顾之川.高考语文现代文阅读:现状与改革[J].中国考试,2014(1):3-7. 被引量：6
2杨友生.2014年高考语文现代文阅读试题的分析与评点[J].中国考试,2015(2):49-54. 被引量：2
3何小五.例谈高考语文现代文阅读探究题解题技巧[J].课外语文（下）,2017,0(1):24-24. 被引量：2
4黄炜,黄建桥,李岳峰.一种基于稀疏自编码器的涉恐短文本特征提取方法[J].情报杂志,2019,38(3):203-206. 被引量：5
5苑超玲.基于语料库的材料类论文摘要体裁分析[J].海外英语,2019,0(14):126-128. 被引量：2
6艾楚涵,姜迪,吴建德.基于主题模型和关联规则的专利文本数据挖掘研究[J].中北大学学报（自然科学版）,2019,40(6):524-530. 被引量：9
7张千,王庆玮,张悦,纪校锋,张宇翔,祝赫,赵昌志.基于深度学习的文本特征提取研究综述[J].计算机技术与发展,2019,29(12):61-65. 被引量：11
8廖纪勇,吴晟,刘爱莲.基于布尔矩阵约简的Apriori算法改进研究[J].计算机工程与科学,2019,41(12):2231-2238. 被引量：23
9陈文实,刘心惠,鲁明羽.基于编码解码器与深度主题特征抽取的多标签文本分类[J].南京师大学报（自然科学版）,2019,42(4):61-68. 被引量：7
10张菊,杨勇.基于SVM算法的高考语文中现代文阅读材料体裁自动分类研究[J].自动化技术与应用,2020,39(4):162-164. 被引量：3

引证文献2

1张菊,杨勇.基于SVM算法的高考语文中现代文阅读材料体裁自动分类研究[J].自动化技术与应用,2020,39(4):162-164. 被引量：3
2采国润,肖宏飞.基于Apriori关联规则的大学语文阅读材料体裁分类方法[J].河北北方学院学报（自然科学版）,2023,39(3):15-21.

二级引证文献3

1叶水盛,刘光胜,马生忠.克立格方法在区域化探数据处理中的应用[J].长春科技大学学报,2000,30(2):198-200. 被引量：6
2尚晖.基于改进SVM的互联网用户分类[J].计算机系统应用,2021,30(4):266-270. 被引量：3
3采国润,肖宏飞.基于Apriori关联规则的大学语文阅读材料体裁分类方法[J].河北北方学院学报（自然科学版）,2023,39(3):15-21.

1王萧楠.基于语料库的《野性的呼唤》的词汇特点浅析[J].东西南北（教育）,2018(10):50-50.
2张雅雯,黎珂.马术英语的词汇特征与翻译策略研究——以英国马会教学大纲为例[J].开封教育学院学报,2018,38(7):87-88.
3梁亚敏,段群.基于计算机技术的无纸化英语考试答题系统[J].自动化与仪器仪表,2018,0(7):150-152. 被引量：1
4戴维.商务英语合同的语言特征及其翻译[J].英语广场（学术研究）,2018,0(8):30-34. 被引量：2
5姜月,张高远.基于隐喻认知角度的“牛”的文化根源与词性演变初探[J].牡丹江大学学报,2018,27(5):19-21. 被引量：2
6邓淑卿,李玩伟,徐健.基于句法依赖规则和词性特征的情感词识别研究[J].情报理论与实践,2018,41(5):137-142. 被引量：6
7张守利,苏申,刘晨,韩燕波.面向发电设备预测性维护的传感数据特征抽取方法[J].太原理工大学学报,2018,49(1):79-85. 被引量：11
8杜冰.中国传统民族文化符号的审美特征[J].学习与探索,2018(6):155-159. 被引量：18
9陈昌浩,范太华.改进的HMM模型在特征抽取上的应用[J].计算机测量与控制,2018,26(4):217-220. 被引量：7
10段宇翔,王耿.三音节组合的重音推导及其结构探究[J].宁夏大学学报（人文社会科学版）,2018,40(1):1-8.

计算机工程与设计

2018年第6期

浏览历史

内容加载中请稍等...

面向高考的现代文阅读材料体裁自动分类被引量：2

参考文献4

二级参考文献33

共引文献18

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向高考的现代文阅读材料体裁自动分类 被引量：2

参考文献4

二级参考文献33

共引文献18

同被引文献17

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向高考的现代文阅读材料体裁自动分类被引量：2