结合深度学习和语言难度特征的句子可读性计算方法被引量：3

Combination of Deep Learning and Language Difficulty Feature for Sentence Readability Metric

下载PDF

导出

摘要该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库。该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性。同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响。实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力。 In this paper, an improved construction method of corpus with readability is proposed, and a large-scale Chinese sentence readability corpus is constructed. We then apply the deep learning method to the evaluation of the readability of Chinese sentence, and explores the influence of incorporating different levels of language difficulty features on the overall performance. The experimental results show that the accuracy of the absolute difficulty of sentences in this corpus reaches 78.69%, with an increase of 15% compared to the previous work.

作者唐玉玲张宇飞于东 TANG Yuling;ZHANG Yufei;YU Dong(School of Information Science,Beijing Language and Culture University,Beijing 100083,China)

机构地区北京语言大学信息科学学院

出处《中文信息学报》 CSCD 北大核心 2022年第2期29-39,共11页 Journal of Chinese Information Processing

基金国家社会科学基金(17ZDA305) 教育部人文社会科学研究青年基金(19YJCZH230) 北京语言大学中青年学术骨干支持计划。

关键词深度学习语言难度特征句子可读性 deep learning language difficulty characteristics sentence readability

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1吴思远,于东,江新.汉语文本可读性特征体系构建和效度验证[J].世界汉语教学,2020,34(1):81-97. 被引量：33
2于东,吴思远,耿朝阳,唐玉玲.基于众包标注的语文教材句子难易度评估研究[J].中文信息学报,2020,34(2):16-26. 被引量：5
3吴思远,蔡建永,于东,江新.文本可读性的自动分析研究综述[J].中文信息学报,2018,32(12):1-10. 被引量：16
4王蕾.可读性公式的内涵及研究范式--兼议对外汉语可读性公式的研究任务[J].语言教学与研究,2008(6):46-53. 被引量：37
5郭望皓.基于CRITIC加权赋值的汉语句子难度测定[J].语文学刊,2016,36(24):10-12. 被引量：3

二级参考文献52

1赵金铭.论对外汉语教材评估[J].语言教学与研究,1998(3):4-19. 被引量：206
2沈烈敏,朱晓平.汉字识别中笔画数与字频效应的研究[J].心理科学,1994,17(4):245-247. 被引量：11
3张宁志.汉语教材语料难度的定量分析[J].世界汉语教学,2000,14(3):83-88. 被引量：83
4李绍山.易读性研究概述[J].解放军外国语学院学报,2000,23(4):1-5. 被引量：100
5黄希庭,陈传锋,余华.结构对称汉字识别的加工机制(I)——整字识别的实验研究[J].心理科学,2002,25(1):4-6. 被引量：5
6吴建国,俞庆英,吴海辉.汉字笔画若干数据的统计方法研究与应用[J].安徽大学学报（自然科学版）,2005,29(3):14-20. 被引量：14
7余美根.论可读性程式设计的不充分性[J].国外外语教学,2005(3):7-12. 被引量：4
8王佶旻.HSK[基础]阅读理解难度的影响因素研究[J].云南师范大学学报（对外汉语教学与研究版）,2006,4(3):19-22. 被引量：5
9张卫国.阅读:覆盖率、识读率和字词比[J].语言文字应用,2006(3):102-109. 被引量：15
10Fry, E. 2002. Readability Versus Leveling, The Reading Teacher, 56 (3), 286 - 291.

共引文献76

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(1):132-144. 被引量：11
3吴继峰,陆小飞.不同颗粒度句法复杂度指标与写作质量关系对比研究[J].语言文字应用,2021(1):121-131. 被引量：17
4强继朋,李云,吴信东.自动词语简化方法综述[J].中文信息学报,2021,35(12):1-16. 被引量：2
5何晓琴.党内法规文本中“或者”连词的规范分析[J].法律方法,2022(1):351-370. 被引量：1
6孟艳华.美国汉语教材的文本因素考察——基于三套教材的定量分析[J].对外汉语研究,2018,0(1):30-41.
7刘颂浩.对外汉语阅读教学研究四十年[J].国际汉语教育（中英文）,2018,0(4):63-75. 被引量：5
8史惠善.面向国际中文教育的文言文词汇排序研究初探——基于CRITIC法[J].国际汉语文化研究,2023(1):217-231.
9殷晓君.文本可读性自动分析研究综述及展望[J].国际汉语文化研究,2023(1):80-89.
10江新.基于分级标准的汉语二语分级读物考察[J].汉语应用语言学研究,2020(1):37-46. 被引量：1

同被引文献16

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：11
3翟倩倩,古想花,刘喜文.慢性病智慧健康教育体系研究[J].医药论坛杂志,2021,42(19):1-5. 被引量：1
4柏小寅,张永伟,李骥,李玥,钱家鸣.我国克罗恩病相关互联网医学科普信息质量评估和可读性初析[J].中华炎性肠病杂志（中英文）,2018,2(2):102-107. 被引量：3
5朱雷,熊军.医疗网站信息服务质量评价标准[J].中华医学图书情报杂志,2012,21(6):1-7. 被引量：13
6左虹,朱勇.中级欧美留学生汉语文本可读性公式研究[J].世界汉语教学,2014,28(2):263-276. 被引量：50
7吴思远,蔡建永,于东,江新.文本可读性的自动分析研究综述[J].中文信息学报,2018,32(12):1-10. 被引量：16
8程勇,徐德宽,吕学强.基于多元特征的文本阅读难度自动分级研究[J].数据分析与知识发现,2019,3(7):103-112. 被引量：3
9吴思远,于东,江新.汉语文本可读性特征体系构建和效度验证[J].世界汉语教学,2020,34(1):81-97. 被引量：33
10于东,吴思远,耿朝阳,唐玉玲.基于众包标注的语文教材句子难易度评估研究[J].中文信息学报,2020,34(2):16-26. 被引量：5

引证文献3

1邹静,丁福.机器学习在网络健康资料质量评估中的研究进展[J].护士进修杂志,2024,39(12):1291-1295.
2杨丽娜,王小杰,芮燕,张永谦,汤思怡,于东,吴安石,魏昌伟.我国分娩镇痛相关网络科普教育资料现状分析[J].中华麻醉学杂志,2024,44(7):850-855.
3谭可人,兰韵诗,张杨,丁安琪.基于多层级语言特征融合的中文文本可读性分级模型[J].中文信息学报,2024,38(5):41-52.

1赵新正,沈文成,樊彤彤,韩静,芮旸.脱贫攻坚与乡村振兴有效衔接的地域评价及模式探究——以陕西省为例[J].河北师范大学学报（自然科学版）,2021,45(6):638-648. 被引量：4
2李浩君,高鹏.融合梯度提升回归树的深度知识追踪优化模型[J].系统科学与数学,2021,41(8):2101-2112. 被引量：7
3李洋甜.高校第二外语(阿拉伯语)教学现状及教学模式探索——以西安石油大学为例[J].中外企业文化,2021(9):191-192.
4黄佳卉,陈萍.民办高校大学英语教师职场学习特征研究[J].中外企业文化,2021(9):197-198.
5黄云,高志伟,梁甘冷,覃薇薇,朱丹.中职语文数智化学习资源设计研究[J].职业教育,2021(36):26-34.
6徐莹.智慧学习视角下混合式教学模式适切性研究[J].现代英语,2021(18):49-51.
7肖南云,蔡树龙,修雪丹.基于资源共享平台的《会计学》课程翻转课堂教学模式探究[J].现代审计与会计,2022(3):35-37.
8林慕飞,王子义.《现代汉语词典》与《商务馆学汉语词典》名词释义配例的对比研究[J].铜陵职业技术学院学报,2021,20(3):44-51.
9郑勇.初中英语汉译英句子翻译训练的几点做法[J].安徽教育科研,2022(5):40-41. 被引量：2
10孙皓,司玉林.BIM技术在城轨工程中的应用研究[J].现代城市轨道交通,2022(4):78-82. 被引量：6

中文信息学报

2022年第2期

浏览历史

内容加载中请稍等...

结合深度学习和语言难度特征的句子可读性计算方法被引量：3

参考文献5

二级参考文献52

共引文献76

同被引文献16

引证文献3

相关作者

相关机构

相关主题

浏览历史

结合深度学习和语言难度特征的句子可读性计算方法 被引量：3

参考文献5

二级参考文献52

共引文献76

同被引文献16

引证文献3

相关作者

相关机构

相关主题

浏览历史

结合深度学习和语言难度特征的句子可读性计算方法被引量：3