期刊文献+

基于局部密度的无监督作文跑题检测方法 被引量:1

Unsupervised Off-topic Essay Detection Based on Local Density
下载PDF
导出
摘要 针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词,并使用分布式表示向量寻找与题目词项语义相似的词,作为对作文题目的主题词扩展,在此基础上使用提出的切题度计算方法计算待测作文的切题度,并使用所提出的基于作文集切题度局部密度的阈值抽取方法动态选取切题阈值,进而实现一种无需训练集和主题无关的无监督作文跑题检测方法。在以英语为母语的学习者和以汉语为母语的学习者所写的8个作文集共9 381篇作文上的实验结果表明,该文提出的作文跑题检测方法能有效识别跑题作文,加入拼写检查预处理后,平均F1值为79.64%,单个作文题目下F1值最好为96.1%。 Existing off-topic essay detection method mainly uses the content vector to represent the composition which sometimes results in low accuracy due to noise words.In this paper,we propose an unsupervised off-topic essay detection method based on the topic words and the local density thresholds.Firstly,Latent Dirichlet Allocation is used to predict essay's topic distribution and the topic words are extracted according to different weights of the topics.Secondly,we use distributed word vector representation to find the similar words as the expansion of the title,and then compute on-topic score of all the test essays using our new similarity calculation method.Finally,we propose a local density threshold extraction method to extract the off-topic threshold automatically and determine off-topic essay.The experimental results on eight sets totaling 9381 essays show that our algorithm can significantly improve the F-measure compared to the baseline method.After adding the spelling correction preprocessing,the average F-measure value over all essay sets reaches 79.64%,and the best F-measure value of the eight sets is 96.1%.
作者 李霞 温启帆
出处 《中文信息学报》 CSCD 北大核心 2017年第6期205-213,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(61402119) 广东省普通高校科技创新项目(2013KJCX0071)
关键词 作文跑题检测 主题词抽取 切题度 阈值选取 off-topic essay detection topic word extraction on-topic score threshold extraction
  • 相关文献

参考文献4

二级参考文献51

  • 1马广惠.中美大学生英语作文语言特征的对比分析[J].外语教学与研究,2002,34(5):45-49. 被引量:141
  • 2许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量:53
  • 3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量:326
  • 4章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量:17
  • 5颜伟,荀恩东,基于WordNet的英语词语相似度计算[C].计算机语言学研讨会论文集,2004年8月.
  • 6方清.中西方思维模式的不同及其对中国学生英语作文的影响[D].广州:中山大学,2003.
  • 7Sherm is,M.D.,J.Burstein.Automated Essay Scoring:Cross-disciplinary Perspective.Computational Linguistics[J].2004,30(2):245-246.
  • 8Rudner,Lawrence,Phill Gagne.An overview of three approaches to scoring written essays by computer.Practical Assessment[J],Research & Evaluation,2001,7(26).
  • 9S Valenti,F Neri,A Cucchiarelli.An Overview of Current Research on Automated Essay Grading[J].Journal of Information Technology Education,2003,2(1):319-330.
  • 10Hamp-Lyons L.On Second Language Writing[M].Lawrence Erlbaum Associates,2001.

共引文献27

同被引文献7

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部