ChpoBERT:面向中文政策文本的预训练模型

ChpoBERT:A Pre-trained Model for Chinese Policy Texts

下载PDF

导出

摘要随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM(masked language model)和WWM(whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。 With the rapid development of deep learning and the accumulation of domain data,domain-based pre-trained models play an increasingly important supporting role in knowledge organization and mining.Aimed at massive Chinese policy texts,the pre-trained model of Chinese policy texts combined with the corresponding pre-trained strategies not only helps to improve the level of intelligent processing of Chinese policy texts,but also lays a solid foundation for the refinement,multi-dimensional analysis,and exploration of policy texts driven by data.For the national,provincial,and municipal policy texts,131,390 policy texts with a total number of 305,648,206 Chinese words were obtained through the combination of automatic capture and manual assistance by removing non-policy text.This study develops a Chinese policy text pre-training model(ChpoBERT)for the constructed Chinese policy text corpus,which is based on the Chinese-RoBERTa-wwm-ext and BERT-base-Chinese.The model is open source and is available on Github.In terms of the evaluation indices of perplexity and downstream tasks of automatic word segmentation,automatic part-of-speech tagging,and named entity recognition of policy texts,the constructed ChpoBERT models showed better performance,which can provide basic computing resource support for the domain of intelligent knowledge mining of policy texts.

作者沈思陈猛冯暑阳许乾坤刘江峰王飞王东波 Shen Si;Chen Meng;Feng Shuyang;Xu Qiankun;Liu Jiangfeng;Wang Fei;Wang Dongbo(School of Economics&Management,Nanjing University of Science&Technology,Nanjing 210094;College of Information Management,Nanjing Agricultural University,Nanjing 210095;Jiangsu Institute of Science and Technology Information,Nanjing 210042)

机构地区南京理工大学经济管理学院南京农业大学信息管理学院江苏省科技情报研究所

出处《情报学报》 CSCD 北大核心 2023年第12期1487-1497,共11页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金面上项目“基于深度学习的学术全文本知识图谱构建及检索研究”(71974094)。

关键词 BERT 预训练模型政策文本深度学习困惑度 BERT pre-trained model policy text deep learning perplexity

分类号 G353.1 [文化科学—情报学]

引文网络
相关文献

参考文献17

1郑新曼,董瑜.政策文本量化研究的综述与展望[J].现代情报,2021,41(2):168-177. 被引量：51
2裴雷,孙建军,周兆韬.政策文本计算:一种新的政策文本解读方式[J].图书与情报,2016(6):47-55. 被引量：78
3胡吉明.政策文本研究:从内容计算到功能理解[J].图书情报知识,2023,40(4):145-152. 被引量：5
4杨正.政策计量的应用:概念界限、取向与趋向[J].情报杂志,2019,38(4):60-65. 被引量：23
5闫盛枫.融合词向量语义增强和DTM模型的公共政策文本时序建模与演化分析——以“大数据领域”为例[J].情报科学,2021,39(9):146-154. 被引量：12
6赵菲菲,王宇琪,周庆山,孔庆超.个人信息保护政策网络评价的文本分析建模研究[J].情报杂志,2020,39(8):154-159. 被引量：3
7李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：3
8王晶金,刘立,王斐.高校与国立科研机构科技成果转移转化政策文本量化研究[J].科学管理研究,2017,35(4):24-27. 被引量：12
9郑新曼,董瑜.基于科技政策文本的程度词典构建研究[J].数据分析与知识发现,2021,5(10):81-93. 被引量：9
10魏宇,余青.基于语义分析的政策差异量化研究——以近三十年旅游交通政策为例[J].情报杂志,2019,38(3):194-202. 被引量：13

二级参考文献204

1沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学（季刊）,2019,18(4):1153-1186. 被引量：80
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3李宇明.程度与否定[J].世界汉语教学,1999,13(1):29-36. 被引量：32
4张国宪.形容词的记量[J].世界汉语教学,1996,10(4):35-44. 被引量：55
5廖湘阳,王战军.改革开放以来我国研究生教育政策的文本分析[J].高等教育研究,2004,25(6):36-43. 被引量：31
6钮菊生.论现代公共政策的功能与特点[J].江海学刊,2001(5):71-75. 被引量：9
7谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
8杨正联.公共政策文本分析:一个理论框架[J].理论与改革,2006(1):24-26. 被引量：54
9查尔斯·蓝伯,郁建兴（译）,徐越倩（译）.公共政策研究的新进展[J].公共管理学报,2006,3(2):60-69. 被引量：24
10李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15

共引文献333

1马群凯,王齐,冯立胜,李颖,赵碧君.语义分析在进出口商品申报信息智能判别场景中的应用[J].中国口岸科学技术,2023,5(S01):55-59.
2李明,曹海军.我国“双碳”政策量化评价与优化研究——基于“结构-工具-效力”的分析框架[J].中国公共政策评论,2023(1):146-164. 被引量：1
3杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
4罗扬,颜瑞新,李伟刚,朱登明.面向产学研服务的政策匹配方法与系统[J].计算机系统应用,2022,31(11):139-147.
5梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
6刘勘,赵帅,彭虎锋,黄漫宇.营商环境政策的主题演化研究[J].知识管理论坛,2022(3):314-331.
7李慧,余明明.地方政府实施研学旅行注意力配置——基于20个省级政策文本分析[J].绥化学院学报,2023,43(5):15-18. 被引量：1
8余厚强,王玥,吴婷婷,同风桦.基于政策文献计量的我国新时期科技评价体系改革进程研究[J].情报科学,2022,40(8):20-28. 被引量：1
9吴先,胡俊峰.基于历时语料库的在线词典编纂系统设计[J].中文信息学报,2020(5):27-35. 被引量：1
10程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：9

1王丽珍.从“多规合一”到国土空间规划“一张图”平台应用实践——以漳州市为例[J].福建建材,2023(11):106-109.
2无.江西省打造“省市县三级协同”城市治理新模式[J].中国建设信息化,2023(3):10-13.
3门雯雯.昆明市第一人民医院:联动发展助药品回归临床价值[J].中国卫生,2023(11):42-43.
4陈秋艳,程旻娜,吴萃,吴菲,王玉恒.上海市社区慢性病管理对象的共病现状及影响因素分析[J].健康教育与健康促进,2023,18(5):484-487.
5王攀攀,李艳英.“手脑并用,双手万能”课堂教学模式在单片机课程教学中的应用[J].中国科技期刊数据库科研,2023(10):17-20.
6杨乐雨.大语言模型在计算机视觉任务中的应用情况分析[J].信息产业报道,2023(10):130-132.
7陈旭,吴蔚,彭冬亮,谷雨.Infrared-PV:面向监控应用的红外目标检测数据集[J].红外技术,2023,45(12):1304-1313.
8Yitang Zhang.The contribution of Jing-run Chen to number theory[J].Science China Mathematics,2023,66(12):2667-2667. 被引量：1
9黄尚宁,欧君.强化数据支撑提升管理效能--实景三维柳州建设与应用略记[J].南方自然资源,2023(10):22-24.
10丁海兰.基于藏族格言的方位词统计分析研究[J].西北民族大学学报（自然科学版）,2023,44(2):32-36.

情报学报

2023年第12期

浏览历史

内容加载中请稍等...

ChpoBERT:面向中文政策文本的预训练模型

参考文献17

二级参考文献204

共引文献333

相关作者

相关机构

相关主题

浏览历史