基于篇章结构的英文作文自动评分方法被引量：13

English Automated Essay Scoring Methods Based on Discourse Structure

下载PDF

导出

摘要作文自动评分(Automated Essay Scoring AES)是指使用统计学、自然语言处理及语言学等领域的技术对作文进行评价和评分的系统。篇章结构分析是自然语言处理领域的一个重要研究方向,也是作文自动评分系统的重要组成部分之一。目前国外的作文自动评分系统虽有广泛应用,但对篇章结构评分的研究还存在不足,且对中国学生英语作文的针对性不强;国内对英语作文自动评分的研究处于起步阶段,忽视了篇章结构对英语作文评分的重要性。针对这些问题,提出一种基于篇章结构的英文作文自动评分方法,在词、句、段落3个层面上提取作文的词汇、句法以及结构等特征,并使用支持向量机、随机森林以及极端梯度上升等算法对篇章成分进行分类,最后构建线性回归模型对作文的篇章结构进行评分。实验结果表明,基于随机森林的篇章成分识别模型(Discourse Element Identification based Random Forest,DEI-RF)的准确率为94.13%;基于线性回归的篇章结构自动评分模型(Discourse Structures Scoring based Linear Regression,DSS-LR)在背景介绍段(Introduction)、论证段(Argumentation)以及让步段(Concession)的均方差可达到0.02,0.11和0.08。 Automated essay scoring is defined as the computer technology that evaluates and scores the composition,based on the technologies of statistics,natural language processing,linguistics and some other fields.Discourse structure analysis is not only an important research field of natural language processing,but also an important component of the AES system.Nowadays,AES system has widely application.However,there is not enough research on the structure of the essay,and the AES system does not focus on the Chinese students.The domestic researches on the AES are in infancy,ignoring the importance of discourse structure in essay scoring.In view of these problems,this paper proposed a method of automated essay scoring based on discourse structure.Firstly,the method extracts essay’s features,such as vocabulary,lexical and discourse structure from levels of words,sentences and paragraphs.Then,the composition of essays is classified by support vector machines,random forests and extreme gradient boosting,and then the linear regression model with the discourse element is constructed to score the compositions.The experimental results show that the accuracy of discourse element identification based random forest (DEI-RF) can reach 94.13%,and the mean squared error of automated discourse structure scoring based on linear regression (DSS-LR) model can reach 0.02 ,0.11 and 0.08 on introduction,argumentation and concession respectively.

作者周明贾艳明周彩兰徐宁 ZHOU Ming;JIA Yan-ming;ZHOU Cai-lan;XU Ning(School of Computer Science and Technology,Wuhan University of Technology,Wuhan 430070,China;Research Center for Artificial Intelligence and Big Data,Global Wisdom Inc,Beijing 100085,China;Hubei Key Laboratory of Transportation Internet of Things,Wuhan University of Technology,Wuhan 430070,China)

机构地区武汉理工大学计算机科学与技术学院武汉理工大学交通物联网技术湖北省重点实验室北京博智天下信息技术有限公司人工智能与大数据研究中心

出处《计算机科学》 CSCD 北大核心 2019年第3期234-241,共8页 Computer Science

关键词作文自动评分篇章成分篇章结构分析自然语言处理随机森林线性回归 Automated essay scoring Discourse element Discourse structure analysis Natural language processing Random forest Linear regression

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1严为绒,徐扬,朱珊珊,洪宇,姚建民,朱巧明.篇章关系分析研究综述[J].中文信息学报,2016,30(4):1-11. 被引量：6
2李生,孔芳,周国栋.基于PDTB的自动显式篇章分析器[J].中文信息学报,2016,30(2):18-25. 被引量：1
3徐凡,朱巧明,周国栋.基于树核的隐式篇章关系识别[J].软件学报,2013,24(5):1022-1035. 被引量：15
4蒋玉茹,宋柔.基于细粒度特征的话题句识别方法[J].计算机应用,2014,34(5):1345-1349. 被引量：6
5邢永康,马少平.统计语言模型综述[J].计算机科学,2003,30(9):22-26. 被引量：37

二级参考文献66

1Graff D. The 1998 broadcast news speech and language-model corpus. Slides from lecture at the 1997 DARPA Speech Recognition Workshop, Feb. 1997.
2Rosenfeld R. A maximum entropy approach to adaptive statistical language modeling. Computer Speech and Language, 1996, 10:187-228.
3Katz S M. Estimation of probabilities from sparse data for the language model component of speech recognizer. IEEE Transactions on Acoustics, Speech and Signal Processing, 1987, ASSP35:400-401.
4Jelinek F,Mercer R L. Interpolated estimation of Markov source parameters from sparse data. In:Proc. of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland, May 1980,381-397.
5Magerman D M. Natural Language Parrsing as Statistical Pattern Recognition:[PhD Thesis]. Stanford University, 1994.
6Bahl L R,Brown P F, De Souza P V, Mercer R L. A tree-based statistical language model for natural language speech recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing. 1989, 37(7): 1001-1008.
7Rosenfeld R. Adaptive Statistical Language Modeling: A Maximum Entropy Approach: [PhD thesis]. Carnegie Mellon University, 1994- CMU Technical Report CMU-CS-94-138.
8Darroch J, RatclifI D. Generalized iterative scaling for log-linear models. The annals of Mathematical statistics 1972, 43: 1470-1480.
9Berger A L. Della Pietra S A, Della Pietra V J. A maximum entropy approach to natural language processing. Computational Linguistics 1996,22(1) : 39-71.
10RosenIeld R. Two decades oI Statistical Language Modeling: Where Do We Go From Here? Proceedings of the IEEE, 2000, 88(8).

共引文献60

1王思丽,祝忠明.机构知识库相关性检索机制研究与试验[J].情报科学,2020,0(2):94-101. 被引量：1
2董云耀,钱如栏.一种改进的基于隐马尔可夫的信息检索模型[J].杭州电子科技大学学报（自然科学版）,2009,29(4):46-49. 被引量：1
3荣传振,岳振军,贾永兴,王渊,杨宇.唇语识别关键技术研究进展[J].数据采集与处理,2012,27(S2):277-283. 被引量：4
4刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
5刘政怡,吴建国,李炜.基于整句输入法的状态空间模型[J].计算机工程与应用,2008,44(30):153-156. 被引量：2
6吴晓春,吴娴,李培峰,朱巧明.基于分组的次数与规则剪枝相结合的语言模型压缩方法研究[J].计算机工程与科学,2008,30(11):129-133.
7杜晓杰,张楠,魏蓉,齐丙辰.自然语言理解策略——中文语义分析及LSF随机化句法分析模型与应用[J].天津师范大学学报（自然科学版）,2008,28(4):73-76. 被引量：1
8郭涛,曲宝胜,郭勇.自然语言处理中的模型[J].电脑学习,2011(2):113-116.
9王健,哈力木拉提.买买提.印刷体维吾尔文识别后处理[J].新疆大学学报（自然科学版）,2011,28(2):248-252. 被引量：3
10王旗,马建芬.基于TBL的手写字体分段技术[J].电脑开发与应用,2011,24(6):53-55.

同被引文献103

1张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现,2019,3(12):1-9. 被引量：21
2李雪思,张智雄,刘欢.基于BERT模型实现概念定义句自动识别[J].情报科学,2022,40(8):160-166. 被引量：2
3梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007(5):18-24. 被引量：184
4刘建达,黄亚萍.词汇特征量对CET作文得分的影响[J].外语电化教学,2011(3):11-15. 被引量：10
5彭星源,柯登峰,赵知,陈振标,徐波.基于词汇评分的汉语作文自动评分[J].中文信息学报,2012,26(2):102-108. 被引量：8
6吴一安,唐锦兰.融入自动评价系统的英语写作实验教学对高校英语教师的影响研究[J].外语电化教学,2012(4):3-10. 被引量：42
7郑丁山.基于moodle平台答疑系统的设计与实现[J].计算机光盘软件与应用,2013,16(9):101-103. 被引量：4
8李霞,刘建达.适用于中国外语学习者的英文作文全自动集成评分算法[J].中文信息学报,2013,27(5):100-106. 被引量：9
9梁娟.英语翻译器语音识别系统的设计及功能实现[J].微型电脑应用,2018,34(12):46-48. 被引量：9
10高莹,樊宇,王亚非.口语非流利性现象与内在的语言发展之间的相关研究[J].外语与外语教学,2014(4):63-68. 被引量：2

引证文献13

1赵瑞雪.基于词向量聚类及随机森林的英语作文自动评分研究[J].微型电脑应用,2020,36(6):104-107. 被引量：6
2林思岑.基于去相关化的低秩矩阵分解对口语能力的评估方法[J].微型电脑应用,2021,37(2):33-36.
3冯筠,邢嘉琪,赵艾琦,邓瑶,孙霞,雷守学.人工智能在基础教育教学应用综述[J].计算机技术与发展,2021,31(2):1-7. 被引量：6
4周险兵,樊小超,任鸽,杨勇.基于多层次语义特征的英文作文自动评分方法[J].计算机应用,2021,41(8):2205-2211. 被引量：7
5李俊娴.基于多特征融合和机器学习理论的英语机考作文自动评分系统[J].微型电脑应用,2021,37(10):157-160. 被引量：1
6李琼,张小奇.基于人工智能技术的英语语段辅助评阅系统设计[J].河北北方学院学报（自然科学版）,2022,38(1):44-48. 被引量：2
7张雪英.一种基于支持向量机的等级保护模型[J].安阳师范学院学报,2023(2):43-47.
8陈宇航,杨勇,帕力旦·吐尔逊.多维度特征增强的作文自动评分[J].新疆师范大学学报（自然科学版）,2023,42(3):43-49.
9于明诚,党亚固,吴奇林,吉旭,毕可鑫.基于多尺度上下文的英文作文自动评分研究[J].计算机工程,2024,50(3):259-266.
10卢致杰.高考英语作文自动精准评分模型与方法研究[J].外语电化教学,2023(6):66-74.

二级引证文献21

1张欣,钱鹏江,蒋亦樟.基于智能互联的教学应用研究[J].江苏教育,2021(17):7-11.
2赵雨.人工智能背景下制浆造纸工程专业英语翻译译文质量研究[J].造纸科学与技术,2022,41(4):96-99. 被引量：2
3LI Wanjun,ZHAO Yun,JIA Wenfeng,ZHAO Yushan.A Comparative and Integrated Study of English Composition Online Automatic Scoring (OAS) and Teacher Scoring (TS)[J].Sino-US English Teaching,2021,18(10):267-273.
4查道贵.基于AMLF优化算法的机器学习框架的技术研究[J].佳木斯大学学报（自然科学版）,2022,40(1):56-59. 被引量：1
5李琼,张小奇.基于人工智能技术的英语语段辅助评阅系统设计[J].河北北方学院学报（自然科学版）,2022,38(1):44-48. 被引量：2
6陈琳.“双新”背景下上海市杨浦区“高中人工智能课程资源开发与利用”的调查研究[J].上海课程教学研究,2022(1):9-16.
7樊迪.基于随机森林的翻译文本误译语句自动识别方法[J].自动化技术与应用,2022,41(5):121-124.
8凌永标,毛峰,杨岚岚,邱兴卫,张志锐,张杰.基于混合注意力网络的安全工器具检测[J].计算机技术与发展,2022,32(6):209-214.
9梁家富,李家华.基于Doc2Vec和随机森林的外卖评价预测方法[J].微型电脑应用,2022,38(6):142-144. 被引量：1
10张卫娜.基于机器视觉的英语语法自动纠错系统设计[J].自动化与仪器仪表,2022(8):199-203. 被引量：5

1任瑞娟,高莉.人、机英语作文评分比较研究[J].黑龙江教育（高教研究与评估）,2018(1):28-31. 被引量：1
2谢璐.Reliability and Validity Assessment of Automated Essay Scoring Systems on Graduate Students’ Writings——In the case of Pigaiwang[J].校园英语,2018(42):40-40.
3费忠孝.“预测”阅读策略的教学建议[J].教学月刊（小学版）（语文）,2018(11):37-38. 被引量：2
4朱贵琴.小议初中英语作文教学中合作学习模式的运用[J].明日,2019(3):0127-0127.
5丁洁.批改网在日常高中英语写作教学中的应用[J].中华少年,2019(2):288-288.
6毛建兵.高考英语作文写作的优化策略[J].高考,2018(27):220-220.
7龙学燕.母语负迁移——初中英语写作指导中不可忽视的问题关键要点[J].明日,2018,0(4):273-273. 被引量：1
8曲强,崔荣一,赵亚慧.基于LDA和word2vec的英文作文跑题检测[J].计算机应用研究,2019,36(2):415-419. 被引量：3
9满丽静,王议,杨欣.英语写作中词汇层面的母语负迁移研究综述[J].文教资料,2019(1):223-224.
10吴兴德.朗读和背诵在初中英语中的重要性[J].课程教育研究（学法教法研究）,2019,0(3):194-194.

计算机科学

2019年第3期

浏览历史

内容加载中请稍等...

基于篇章结构的英文作文自动评分方法被引量：13

参考文献5

二级参考文献66

共引文献60

同被引文献103

引证文献13

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于篇章结构的英文作文自动评分方法 被引量：13

参考文献5

二级参考文献66

共引文献60

同被引文献103

引证文献13

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于篇章结构的英文作文自动评分方法被引量：13