期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于预训练模型和Transformer架构的大数据与计算机类科普书籍难度分类研究

Research on Difficulty Classification of Big Data and Computer Popular Science Books Based on Pretrained Models and Transformer Architecture

下载PDF

导出

摘要针对当前研究在书籍级长文本可读性评估方面的不足,本文提出了一种新颖的PTDE-CAC模型。该模型将书籍分割为固定片段,利用无监督聚类获取难度感知片段,对预训练模型进行再训练,使其学习难度知识,将长文本表示为多个不同难度级别的向量。本文构建了大数据、计算机科普教材分级数据集,实验证明PTDE-CAC模型在可读性评估中表现优异,优于传统方法和现有预训练模型。本工作为书籍级可读性评估提供了新思路,也为相关教材编写选择提供了参考。 To address the inadequacy in book-level long text readability assessment,we propose a novel PTDE-CAC model.It divides books into fixed segments,obtains difficulty-aware segments via unsupervised clustering,and retrains a pre-trained model to learn difficulty knowledge,representing long texts as multiple vectors with different difficulty levels.This article construct a graded dataset of big data and computer science popular textbooks.Experiments prove PTDE-CAC outperforms traditional methods and existing pre-trained models in readability assessment.This work provides a new approach for book-level readability assessment and a reference for relevant textbook compilation and selection.

作者黄启洲 HUANG Qizhou(Unicom Digital Technology Co.,Ltd.,Beijing 100032)

机构地区联通数字科技有限公司

出处《软件》 2024年第7期153-155,共3页 Software

关键词书籍级长文本可读性评估 PTDE-CAC模型难度感知预训练多视角表示大数据计算机科普教材分级数据集 book-level long texts readability assessment PTDE-CAC model difficulty-aware pre-training multi-view representation big data computer science popular textbooks grading dataset

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：10
2彭俊文,李磊.融合注意力机制的图文多模态情绪分类模型[J].软件,2023,44(12):176-180. 被引量：2

二级参考文献15

1杨世兴.煤矿监测监控系统的现状与发展[J].安防科技（安全经理人）,2004(5):39-41. 被引量：32
2陈雷,王延章.熵权法对融合网络服务质量效率保障研究[J].计算机工程与应用,2005,41(23):1-3. 被引量：3
3高孝伟.熵权法在教学评优中的应用研究[J].中国地质教育,2008,17(4):100-104. 被引量：12
4苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11. 被引量：34
5韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
6李卫平.对k-means聚类算法的改进研究[J].中国西部科技,2010,9(24):49-50. 被引量：6
7曹国.基于K-means和PCA的商业银行客户价值细分模型研究[J].财会通讯（下）,2010(9):27-29. 被引量：5
8彭凯,秦永彬,许道云.应用因子分析和K-MEANS聚类的客户分群建模[J].计算机科学,2011,38(5):154-158. 被引量：5
9原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
10王军号,孟祥瑞.物联网感知技术在煤矿瓦斯监测系统中的应用[J].煤炭科学技术,2011,39(7):64-69. 被引量：19

共引文献10

1罗军锋,洪丹丹.基于数据抽样的自动k-means聚类算法[J].现代电子技术,2014,37(8):19-21. 被引量：4
2叶菁,黄庆佳.一种基于内核级监测的恶意软件聚类分析方法[J].软件,2017,38(5):1-6.
3李睿,刘同飞.卫星图像传输跟踪优化识别方法仿真研究[J].计算机仿真,2017,34(9):30-33. 被引量：4
4曹潇雷,董燕.基于因子分析的现代农业发展水平研究——以河南省为例[J].软件,2018,39(12):146-150. 被引量：2
5吴广建,章剑林,袁丁.基于K-means的手肘法自动获取K值方法研究[J].软件,2019,40(5):167-170. 被引量：64
6赵谦益.K-means算法中文文献聚类的Python实现[J].软件,2019,40(8):89-94. 被引量：6
7罗军锋,锁志海,郭倩.一种基于k近邻的密度峰值聚类算法[J].软件,2020,41(7):185-188. 被引量：1
8张永,纪威宇,姜巍.面向业务的大模型智能代理框架技术研究[J].软件,2024,45(6):100-102.
9陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：39
10罗军锋,锁志海.一种基于密度的k-means聚类算法[J].微电子学与计算机,2014,31(10):28-31. 被引量：12

1刘凤妹.浅谈如何让学生爱上科普类课文[J].中文科技期刊数据库（全文版）教育科学,2019(2):298-298.
2《认识疼痛缓解疼痛》出版发行[J].中华疼痛学杂志,2024,20(3):431-431.
3黄晓燕,杨斌,黎丽群,宁芯,梁巧利,李建锋,谢胜,王加林,郑超伟.基于ROS/Ras/MEK信号通路探讨四君子汤干预溃疡性结肠炎癌变的作用机制[J].时珍国医国药,2024,35(7):1610-1615.
4胥桂仙,李晓荣.基于深度对比学习的文本聚类[J].中央民族大学学报（自然科学版）,2024,33(3):62-72.
5郑云水,张亚宁.多域特征提取结合AdaBoost的含未知故障提速道岔故障诊断方法[J].机械科学与技术,2024,43(8):1350-1358.
6王珍珠,王文博,李赫,任群言,郭圣明.波束域特征融合的浅海水平阵目标方位估计[J].声学学报,2024,49(5):939-955.
7杨鹏,查显宇,赵广振,林茜.基于胶囊异构图注意力网络的中文表格型数据事实验证[J].软件学报,2024,35(9):4324-4345.

软件

2024年第7期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部