基于局部密度的无监督作文跑题检测方法被引量：1

Unsupervised Off-topic Essay Detection Based on Local Density

下载PDF

导出

摘要针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词,并使用分布式表示向量寻找与题目词项语义相似的词,作为对作文题目的主题词扩展,在此基础上使用提出的切题度计算方法计算待测作文的切题度,并使用所提出的基于作文集切题度局部密度的阈值抽取方法动态选取切题阈值,进而实现一种无需训练集和主题无关的无监督作文跑题检测方法。在以英语为母语的学习者和以汉语为母语的学习者所写的8个作文集共9 381篇作文上的实验结果表明,该文提出的作文跑题检测方法能有效识别跑题作文,加入拼写检查预处理后,平均F1值为79.64%,单个作文题目下F1值最好为96.1%。 Existing off-topic essay detection method mainly uses the content vector to represent the composition which sometimes results in low accuracy due to noise words.In this paper,we propose an unsupervised off-topic essay detection method based on the topic words and the local density thresholds.Firstly,Latent Dirichlet Allocation is used to predict essay＇s topic distribution and the topic words are extracted according to different weights of the topics.Secondly,we use distributed word vector representation to find the similar words as the expansion of the title,and then compute on-topic score of all the test essays using our new similarity calculation method.Finally,we propose a local density threshold extraction method to extract the off-topic threshold automatically and determine off-topic essay.The experimental results on eight sets totaling 9381 essays show that our algorithm can significantly improve the F-measure compared to the baseline method.After adding the spelling correction preprocessing,the average F-measure value over all essay sets reaches 79.64%,and the best F-measure value of the eight sets is 96.1%.

作者李霞温启帆

机构地区广东外语外贸大学语言工程与计算实验室广东外语外贸大学信息科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2017年第6期205-213,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(61402119) 广东省普通高校科技创新项目(2013KJCX0071)

关键词作文跑题检测主题词抽取切题度阈值选取 off-topic essay detection topic word extraction on-topic score threshold extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陈志鹏,陈文亮,朱慕华.利用词的分布式表示改进作文跑题检测[J].中文信息学报,2015,29(5):178-184. 被引量：6
2陈志鹏,陈文亮.基于文档发散度的作文跑题检测[J].中文信息学报,2017,31(1):23-30. 被引量：5
3范弘屹,张仰森.一种基于HowNet的词语语义相似度计算方法[J].北京信息科技大学学报（自然科学版）,2014,29(4):42-45. 被引量：12
4李霞,刘建达.适用于中国外语学习者的英文作文全自动集成评分算法[J].中文信息学报,2013,27(5):100-106. 被引量：9

二级参考文献51

1马广惠.中美大学生英语作文语言特征的对比分析[J].外语教学与研究,2002,34(5):45-49. 被引量：141
2许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
5颜伟,荀恩东,基于WordNet的英语词语相似度计算[C].计算机语言学研讨会论文集,2004年8月.
6方清.中西方思维模式的不同及其对中国学生英语作文的影响[D].广州:中山大学,2003.
7Sherm is,M.D.,J.Burstein.Automated Essay Scoring:Cross-disciplinary Perspective.Computational Linguistics[J].2004,30(2):245-246.
8Rudner,Lawrence,Phill Gagne.An overview of three approaches to scoring written essays by computer.Practical Assessment[J],Research & Evaluation,2001,7(26).
9S Valenti,F Neri,A Cucchiarelli.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education,2003,2(1):319-330.
10Hamp-Lyons L.On Second Language Writing[M].Lawrence Erlbaum Associates,2001.

共引文献27

1李国佳.基于知网的中文词语相似度计算[J].智能计算机与应用,2015,5(3):49-52. 被引量：2
2雷晓东.英语作文自动评价系统技术的国内研究与应用[J].科技视界,2015(35):43-45. 被引量：3
3杨臻,张明慧,肖汉.基于多特征的网络水军识别方法[J].激光杂志,2016,37(12):110-113. 被引量：3
4徐英卓,贾欢.基于树结构的本体概念相似度计算方法[J].计算机系统应用,2017,26(3):275-279. 被引量：10
5陈志鹏,陈文亮.基于文档发散度的作文跑题检测[J].中文信息学报,2017,31(1):23-30. 被引量：5
6陈功,梁茂成.面向中国学生的英语书面语动词形式错误自动检查——基于链语法的研究[J].中文信息学报,2017,31(6):196-204. 被引量：3
7刘磊,梁茂成.英语学习者书面语法错误自动检测研究综述[J].中文信息学报,2018,32(1):1-8. 被引量：7
8吴克介,王家伟.基于知网与搜索引擎的词汇语义相似度计算[J].计算机与现代化,2018(4):90-94. 被引量：6
9孔杏,林庆.主观性文本情感分类研究综述[J].信息技术,2018,42(8):126-130. 被引量：12
10胡国平,张丹,苏喻,刘青文,李佳,王瑞.试题知识点预测：一种教研知识强化的卷积神经网络模型[J].中文信息学报,2018,32(5):137-146. 被引量：6

同被引文献7

1梁茂成,文秋芳.国外作文自动评分系统评述及启示[J].外语电化教学,2007(5):18-24. 被引量：184
2张小平,周雪忠,黄厚宽,冯奇,陈世波,焦宏官.一种改进的LDA主题模型[J].北京交通大学学报,2010,34(2):111-114. 被引量：47
3周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：98
4熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报（工程技术版）,2015,15(1):43-48. 被引量：67
5陈志鹏,陈文亮,朱慕华.利用词的分布式表示改进作文跑题检测[J].中文信息学报,2015,29(5):178-184. 被引量：6
6陈志鹏,陈文亮.基于文档发散度的作文跑题检测[J].中文信息学报,2017,31(1):23-30. 被引量：5
7邢长征,赵全颖,王伟,王星.基于优化密度的耦合空间LDA文本聚类算法研究[J].计算机应用研究,2017,34(7):1966-1970. 被引量：7

引证文献1

1孟超颖,宋文爱,富丽贞.基于LDA耦合空间模型的作文跑题检测方法研究[J].计算机应用研究,2019,36(12):3544-3547. 被引量：2

二级引证文献2

1杨秀璋,武帅,夏换,于小民,范郁锋,丛楠,张懿源.面向贵州省三大战略行动的文本挖掘及LDA模型分析研究[J].现代计算机,2020,26(25):9-14. 被引量：5
2叶佩.面向英语教学的作文主题偏离自动检测算法[J].吉林大学学报（信息科学版）,2022,40(6):1033-1038.

1游少华.谈参数在直线与二次曲线间的作用[J].贵州师范学院学报,1987,20(3):112-113.
2冒小鹭,何爱琴.不稳定型心绞痛的全方位临床护理对策探讨[J].实用临床护理学电子杂志,2017,2(47):35-35.
3方陵生.人工智能术语简介[J].世界科学,2017,0(9):23-23.
4王晓晓.探讨汉语为母语在初中英语写作中的作用及现象[J].人生十六七,2017,0(9Z):22-22.
5迟子建.这个时代还需要神话吗[J].青年博览,2018,0(3):38-39.
6杨卫乾.利用建系法巧解向量题[J].考试周刊,2017,0(79):72-73. 被引量：2
7宫小翠,安新颖.基于LDA模型的医学领域主题分裂融合探测[J].图书情报工作,2017,61(18):76-83. 被引量：9
8郑新.基于BIMF-GLCM分析的印刷网点异常状态诊断方法[J].包装工程,2017,38(17):217-221. 被引量：2
9杨慧琳.浅谈规划和计划的区别[J].才智,2017,0(23):243-243.
10张瑾.浅谈主动服务在优质护理中的效果评价[J].实用临床护理学电子杂志,2017,2(27):45-46.

中文信息学报

2017年第6期

浏览历史

内容加载中请稍等...

基于局部密度的无监督作文跑题检测方法被引量：1

参考文献4

二级参考文献51

共引文献27

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于局部密度的无监督作文跑题检测方法 被引量：1

参考文献4

二级参考文献51

共引文献27

同被引文献7

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于局部密度的无监督作文跑题检测方法被引量：1