-
题名HSK作文切题指标的计量研究
- 1
-
-
作者
张恒源
-
机构
北京语言大学信息科学学院
-
出处
《电脑编程技巧与维护》
2020年第10期9-11,共3页
-
基金
大学生创新创业项目
项目编号:202010032023
获奖类别:国家级创新训练项目。
-
文摘
HSK是来华留学生所需要参加的汉语水平考试,当前对HSK作文评分自动化的需求逐步上升,而在作文自动评分中,切题指标是影响分数的重要指标。切题指标用来描述作者写作的文章与题目所设定主题的相符程度。基于HSK作文数据集进行研究,通过提取文章的关键词,计算其与对应题目词的相似度来得到这一指标。将4种文章关键词提取方法 (LDA、TextRank、TF-IDF和H-point)和两种相似度计算方法 (基于Word2vec的词向量法和基于JS散度的主题分布相似性法)组合得出8种计算切题指标分数的方法,并通过切题指标分数与文章总分的相关系数来评估方法的合理性。实验结果表明,在这8种方法中,TextRank+主题分布相似性法计算出来的切题指标分数与实际总分的相关系数表现最佳,得出的切题指标分数最为合理。
-
关键词
切题指标
关键词提取
相似度计算
-
分类号
H195
[语言文字—汉语]
TP391.1
[自动化与计算机技术—计算机应用技术]
-