基于多层级语言特征融合的中文文本可读性分级模型

Chinese Text Readability Grading via Multi-level Linguistic Feature Fusion

下载PDF

导出

摘要中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。 The goal of Chinese text readability grading task is to classify Chinese texts into the appropriate difficulty levels for readers.Recent studies have shown that linguistic features and deep semantic features are complementary in characterizing the difficulty of text.However,existing work only performed shallow fusion of these two types of features,and deep,multi-level fusion has not been considered.Therefore,this paper develops a multi-level linguistic feature fusion strategy based on the traditional text readability grading model on BERT.Specifically,considering the interaction of different linguistic features and network layer structures,this paper fused the linguistic features of characters,words and grammar in the embedding layer as well as the self-attention layer.The experimental results show that the proposed method outperforms all baseline models and by 94.2%accuracy.

作者谭可人兰韵诗张杨丁安琪 TAN Keren;LAN Yunshi;ZHANG Yang;DING Anqi(School of Data Science and Engineering,East China Normal University,Shanghai 200333,China;School of International Chinese Studies,East China Normal University,Shanghai 200333,China)

机构地区华东师范大学数据科学与工程学院华东师范大学国际汉语文化学院

出处《中文信息学报》 CSCD 北大核心 2024年第5期41-52,共12页 Journal of Chinese Information Processing

基金国家自然科学基金(62137001) 教育部语合中心重点项目(21YH21B) 教学资源建设重点项目(YHJC22ZD067) 华东师范大学新中文教育专项课题(2022ECNU-WHCCYJ-29,2022ECNU-WHCCYJ-31)。

关键词中文文本可读性分级多层级特征融合深度模型 Chinese text readability grading multi-level linguistic feature fusion deep model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：10
2朱君辉,刘鑫,杨麟儿,王鸿滨,杨尔弘.汉语语法点特征及其在二语文本难度自动分级研究中的应用[J].语言文字应用,2022(3):87-99. 被引量：5
3唐玉玲,张宇飞,于东.结合深度学习和语言难度特征的句子可读性计算方法[J].中文信息学报,2022,36(2):29-39. 被引量：3
4吴思远,于东,江新.汉语文本可读性特征体系构建和效度验证[J].世界汉语教学,2020,34(1):81-97. 被引量：30
5左虹,朱勇.中级欧美留学生汉语文本可读性公式研究[J].世界汉语教学,2014,28(2):263-276. 被引量：49
6程勇,徐德宽,吕学强.基于多元特征的文本阅读难度自动分级研究[J].数据分析与知识发现,2019,3(7):103-112. 被引量：3
7柏晓鹏,吉伶俐.篇章结构特征对文本可读性的影响[J].语言文字应用,2022(3):62-72. 被引量：3
8程勇,董军,晋淑华.基于新标准的汉语二语文本阅读难度分级体系构建与应用[J].世界汉语教学,2023,37(1):98-110. 被引量：6
9刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：8
10江新,宋冰冰,姜悦,翟雨莹.汉语水平考试(HSK)阅读测试文本的可读性分析[J].中国考试,2020(12):30-37. 被引量：11

二级参考文献70

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：8
2程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：10
3彭聃龄,王春茂.汉字加工的基本单元:来自笔画数效应和部件数效应的证据[J].心理学报,1997,29(1):9-17. 被引量：121
4王钟华.初级阶段汉语教学四题[J].语言教学与研究,1999(3):145-151. 被引量：7
5赵金铭.论对外汉语教材评估[J].语言教学与研究,1998(3):4-19. 被引量：206
6谭力海,彭聃龄.快速呈现条件下语境与词频对中文语词识别的影响[J].心理科学通讯,1989,12(2):3-8. 被引量：8
7高定国,钟毅平,曾铃娟.字频影响常用汉字认知速度的实验研究[J].心理科学,1995,18(4):225-229. 被引量：36
8刘颂浩.汉语等距离完形填空测试报告[J].世界汉语教学,1995,9(2):85-93. 被引量：9
9沈烈敏,朱晓平.汉字识别中笔画数与字频效应的研究[J].心理科学,1994,17(4):245-247. 被引量：10
10刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198

共引文献89

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：8
2胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(1):132-144. 被引量：11
3吴继峰,陆小飞.不同颗粒度句法复杂度指标与写作质量关系对比研究[J].语言文字应用,2021(1):121-131. 被引量：17
4刘韵,肖珊.汉语水平考试考点运行管理模式探究[J].学园,2020,13(35):97-98.
5强继朋,李云,吴信东.自动词语简化方法综述[J].中文信息学报,2021,35(12):1-16. 被引量：1
6程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：10
7何晓琴.党内法规文本中“或者”连词的规范分析[J].法律方法,2022(1):351-370. 被引量：1
8孙文章,李延喜,朱佳玮.基于MC-AHP与灰色关联度的企业中文年度报告可读性综合评价体系及实证检验研究[J].当代会计评论,2019,12(1):61-79. 被引量：2
9刘颂浩.对外汉语阅读教学研究四十年[J].国际汉语教育（中英文）,2018,0(4):63-75. 被引量：5
10殷晓君.文本可读性自动分析研究综述及展望[J].国际汉语文化研究,2023(1):80-89.

1刘珊珊.基于学习活动观的初中英语阅读教学研究[J].读友,2024(2):11-13.
2吴小梅.初中英语阅读教学中培养学生高阶思维的思考[J].安徽教育科研,2024(26):38-40.
3王晓雪.基于思维导图优化小学英语阅读教学的措施[J].中国科技经济新闻数据库教育,2024(9):0106-0109.
4闫玉荷,刘凌.研究生入学考试英语(二)阅读理解内容效度研究(2017-2023)[J].科教导刊,2024(2):52-55.
5魏太琛,韩闯,陈振标.高校专利四象限分级实证研究——以转化概率和转化金额预期为维度[J].情报探索,2024(9):76-86.
6张梦,周国模,顾蕾,王文硕.基于环境效应的以竹代塑产品分级研究[J].中国科学：地球科学,2024,54(9):3040-3050.
7赵方.基于学生需求的大学英语分级教学优化策略[J].中国科技经济新闻数据库教育,2024(9):0013-0016.

中文信息学报

2024年第5期

浏览历史

内容加载中请稍等...

基于多层级语言特征融合的中文文本可读性分级模型

参考文献11

二级参考文献70

共引文献89

相关作者

相关机构

相关主题

浏览历史