期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

汉语水平考试(HSK)阅读文本可读性自动评估研究被引量：5

A Study on the Automatic Text Readability Assessment of Reading Texts in Hanyu Shuiping Kaoshi(HSK)

下载PDF

导出

摘要本文基于汉语二语文本可读性的特征集合,通过对比六种机器学习模型的效果,引入特征选择算法,实现了汉语水平考试(HSK)阅读文本可读性的自动评估。实验结果表明,支持向量机模型在HSK阅读文本可读性评估中的表现最好;基于汉字、词汇、句法和篇章的全特征模型的预测准确率达0.876;不同层面的特征预测能力存在差异,其中词汇层面表现最好;剔除冗余特征后,词汇和汉字两个层面的18个特征进入最优模型,句法和篇章特征未能进入该模型。本研究对HSK阅读文本的选择和改编及其他类型的文本可读性评估具有一定的参考意义。 This paper proposed a set of features for CSL text readability assessment and then compared the effectiveness of six machine learning models in addition to employing the algorithms of feature selection to assess the readability of the Hanyu Shuiping Kaoshi(HSK)reading texts.The experiments demonstrated that the prediction of the support vector machine was significantly higher than others.The accuracy based on the full-featured model including Chinese characters,lexical,syntactic,and discourse reached 0.876 and there existed gaps at different linguistic levels,among which the lexical-level features were the most reliable.The optimal model consisted of 18 features at the lexical level and character level after eliminating the redundant features,while syntactic and discourse features were not in the model.This study has implications for the selection and adaptation of HSK reading texts and the readability evaluation of other types of texts.

作者杜月明王亚敏王蕾 DU Yueming;WANG Yamin;WANG Lei

机构地区北京大学对外汉语教育学院北京语言大学汉语速成学院

出处《语言文字应用》 CSSCI 北大核心 2022年第3期73-86,共14页 Applied Linguistics

基金国家社会科学基金重大项目“面向全球孔子学院的中国概况教学创新研究及其数字课程建设”(18ZDA339)的资助。

关键词文本可读性 HSK阅读文本语言特征机器学习支持向量机 text readability HSK reading text linguistic features machine learning Support vector machine

分类号 H087 [语言文字—语言学]

引文网络
相关文献

参考文献15

1江新,宋冰冰,姜悦,翟雨莹.汉语水平考试(HSK)阅读测试文本的可读性分析[J].中国考试,2020(12):30-37. 被引量：10
2江新,赵果,黄慧英,柳燕梅,王又民.外国学生汉语字词学习的影响因素——兼论《汉语水平大纲》字词的选择与分级[J].语言教学与研究,2006(2):14-22. 被引量：20
3刘黎岗,缪海涛.语言复杂度的理论与测量[J].外语研究,2018,35(1):52-55. 被引量：10
4刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：7
5罗莲,彭恒利,李亚男,LI Yao.汉语作为第二语言写作测试中的语言标准化:评分员视角[J].语言文字应用,2019,0(2):133-141. 被引量：3
6王蕾.初中级日韩学习者汉语文本可读性公式研究[J].语言教学与研究,2017(5):15-25. 被引量：21
7王艺璇.汉语二语者词汇丰富性与写作成绩的相关性——兼论测量写作质量的多元线性回归模型及方程[J].语言文字应用,2017(2):93-101. 被引量：30
8吴继峰,陆小飞.不同颗粒度句法复杂度指标与写作质量关系对比研究[J].语言文字应用,2021(1):121-131. 被引量：16
9吴建国,俞庆英,吴海辉.汉字笔画若干数据的统计方法研究与应用[J].安徽大学学报（自然科学版）,2005,29(3):14-20. 被引量：14
10吴思远,于东,江新.汉语文本可读性特征体系构建和效度验证[J].世界汉语教学,2020,34(1):81-97. 被引量：28

二级参考文献115

1彭聃龄,王春茂.汉字加工的基本单元:来自笔画数效应和部件数效应的证据[J].心理学报,1997,29(1):9-17. 被引量：121
2郭熙.论"华语"[J].暨南大学华文学院学报,2004(2):56-65. 被引量：66
3ＴｈｅＡｃｑｕｉｓｉｔｉｏｎｏｆ“了·ｌｅ”ｉｎＬ２Ｃｈｉｎｅｓｅ[J].世界汉语教学,1999,13(1):57-64. 被引量：17
4刘颂浩.阅读课上的词汇训练[J].世界汉语教学,1999,13(4):12-23. 被引量：51
5李晓琪.论对外汉语虚词教学[J].世界汉语教学,1998,12(3):65-71. 被引量：25
6万业馨.汉字字符分工与部件教学[J].语言教学与研究,1999(4):32-41. 被引量：54
7李清华.《汉语水平词汇与汉字等级大纲》的词汇量问题[J].语言教学与研究,1999(1):50-59. 被引量：44
8崔永华.汉字部件和对外汉字教学[J].语言文字应用,1997(3):51-56. 被引量：129
9张凯.汉语构词基本字的统计分析[J].语言教学与研究,1997(1):43-52. 被引量：64
10乐眉云.介绍一种测定英语教材难度的科学方法[J].外语教学与研究,1983,15(4):47-49. 被引量：20

共引文献302

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：7
2胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(1):132-144. 被引量：10
3吴继峰,陆小飞.不同颗粒度句法复杂度指标与写作质量关系对比研究[J].语言文字应用,2021(1):121-131. 被引量：16
4刘韵,肖珊.汉语水平考试考点运行管理模式探究[J].学园,2020,13(35):97-98.
5肖慧敏,徐彩华.印尼少儿汉语二语看图写作质量评估研究——从语言特征与功能充分性相结合的角度[J].世界汉语教学,2021(2):248-262. 被引量：4
6张海威,张雪妍,张铁军,王睿昕.留学生识字量表编制研究[J].世界汉语教学,2021(1):126-142. 被引量：2
7强继朋,李云,吴信东.自动词语简化方法综述[J].中文信息学报,2021,35(12):1-16. 被引量：1
8程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：9
9张彩苹,毛红.中泰教师合作式小学汉语课堂教学语言分析[J].教育观察,2023,12(32):121-124. 被引量：1
10夏菁,孙未未.多向度计量语体特征下的对外汉语教材可读性自动评估研究[J].华中学术,2020(2):181-193. 被引量：3

同被引文献60

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：7
2胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(1):132-144. 被引量：10
3李果,王长林.论古白话正式体的体原子——以《祖堂集》《景德传灯录》“弘忍、惠能”篇为例[J].历史语言学研究,2021(2):67-82. 被引量：2
4冯胜利,刘丽媛.语体语法的生物原理与生成机制[J].民俗典籍文字研究,2020(2):76-103. 被引量：20
5程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：9
6夏菁,孙未未.多向度计量语体特征下的对外汉语教材可读性自动评估研究[J].华中学术,2020(2):181-193. 被引量：3
7潘先军.话语标记的语体特征与对外汉语话语标记教学[J].对外汉语研究,2021(1):10-24. 被引量：1
8胡裕树,范晓.试论语法研究的三个平面[J].新疆师范大学学报（哲学社会科学版）,1985,6(2):7-15. 被引量：208
9鲁川.汉语的意合网络[J].语言文字应用,1998(2):84-90. 被引量：16
10李文明.语体是言语的风格类型——兼与刘大为先生商榷[J].当代修辞学,1994(6):1-3. 被引量：6

引证文献5

1张一航,葛李勤,张如平.“一带一路”国家预科外国留学生新HSK4题型成绩分析及对策研究--以西北农林科技大学为例[J].中阿科技论坛（中英文）,2023(4):136-140.
2殷晓君,邵艳秋.基于语义依存构式的中文文本语义复杂度特征研究[J].语言文字应用,2023(3):132-142.
3丁安琪,张杨,兰韵诗.基于《国际中文教育中文水平等级标准》的中文文本难度自动分级研究——以HSK中高级阅读文本为例[J].首都师范大学学报（社会科学版）,2023(6):81-92.
4莫凯洁,胡韧奋.现代汉语词汇语体属性探测模型研究[J].语言文字应用,2023(4):118-131.
5任梦,王方伟.基于监督学习的HSK阅读文本自动分级模型研究[J].河北科技大学学报,2024,45(2):150-158.

1翟永杰,赵振远,王乾铭,白康.基于人工-真实样本度量学习的指针式仪表检测方法[J].电测与仪表,2022,59(10):174-183. 被引量：1
2柏晓鹏,吉伶俐.篇章结构特征对文本可读性的影响[J].语言文字应用,2022(3):62-72. 被引量：2

语言文字应用

2022年第3期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部