基于预训练语言模型的政策识别研究被引量：4

Policy Identification Based on Pretrained Language Model

下载PDF

导出

摘要政策文本的量化研究近年来受到了政策研究学者的广泛关注,其研究结论以客观数据为依据,在很大程度上可以克服以往对政策定性分析的主观性和随机性。已有定量政策文本分析方法主要存在两方面的不足:一方面,对于政策文本的采集主要依靠手工收集,其数据规模较小;另一方面,在政策识别方面主要依靠人类经验,在小规模数据集上进行偏置归纳。针对以上问题,该文提出基于预训练语言模型的政策识别方法,从而克服以上问题,在较大规模的政策文本数据集上取得了较好的效果。 Quantitative study on policy text is attractive in that the conclusions obtained by quantitative approaches can overcome the subjectivity and randomness of qualitative analysis approaches. Existing quantitative approaches on policy text analysis have two drawbacks. First, the data size is small due to the manually collecting of policy text. Second, the identification of policy text mainly depends on the human experience, which is obtained on biased induction on small data. To address the above issues, this paper proposed a pretrained language model approach for policy identification so that to overcome the above problems and achieve well performance on large-scale policy data set.

作者朱娜娜王航张家乐孙英巍 ZHU Nana;WANG Hang;ZHANG Jiale;SUN Yingwei(School of Information Management,Heilongjiang University,Harbin,Heilongjiang 150080,China;Faculty of Computing,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Harbin University Library,Harbin,Heilongjiang 150086,China;Party School of Harbin Bureau Group Company,Harbin,Heilongjiang 150001,China)

机构地区黑龙江大学信息管理学院哈尔滨工业大学计算学部哈尔滨学院图书馆哈尔滨局集团公司党校

出处《中文信息学报》 CSCD 北大核心 2022年第2期104-110,共7页 Journal of Chinese Information Processing

基金国家社会科学基金(15ATQ008) 黑龙江省文化厅艺术科学规划项目(2019C027)。

关键词预训练语言模型政策识别 pretraining language model policy identification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1裴雷,孙建军,周兆韬.政策文本计算:一种新的政策文本解读方式[J].图书与情报,2016(6):47-55. 被引量：85
2彭纪生,孙文祥,仲为国.中国技术创新政策演变与绩效实证研究(1978-2006)[J].科研管理,2008,29(4):134-150. 被引量：212
3彭纪生,仲为国,孙文祥.政策测量、政策协同演变与经济绩效：基于创新政策的实证研究[J].管理世界,2008,24(9):25-36. 被引量：461
4李江,刘源浩,黄萃,苏竣.用文献计量研究重塑政策文本数据分析——政策文献计量的起源、迁移与方法创新[J].公共管理学报,2015,12(2):138-144 159. 被引量：260
5黄萃,任弢,张剑.政策文献量化研究:公共政策研究的新方向[J].公共管理学报,2015,12(2):129-137 158-15. 被引量：380
6张剑,黄萃,叶选挺,时可,苏竣.中国公共政策扩散的文献量化研究——以科技成果转化政策为例[J].中国软科学,2016(2):145-155. 被引量：106
7黄萃,任弢,李江,赵培强,苏竣.责任与利益:基于政策文献量化分析的中国科技创新政策府际合作关系演进研究[J].管理世界,2015,31(12):68-81. 被引量：175
8孙斌,彭纪生.中国知识产权保护政策与创新政策的协同演变研究[J].科技管理研究,2010,30(1):33-35. 被引量：21
9肖久灵,孙文祥,彭纪生.地方政府技术政策演化与绩效研究——以江苏省为例[J].中国科技论坛,2009(11):72-76. 被引量：7
10仲为国,彭纪生,孙文祥.政策测量、政策协同与技术绩效:基于中国创新政策的实证研究(1978-2006)[J].科学学与科学技术管理,2009,30(3):54-60. 被引量：79

二级参考文献237

1汪涛,汪樟发.北京市现行科技政策法规体系扫描[J].科研管理,2004,25(z1):9-13. 被引量：2
2周望.政策扩散理论与中国“政策试验”研究:启示与调适[J].四川行政学院学报,2012(4):43-46. 被引量：105
3杨耀武,张仁开.长三角区域科技创新政策评估及路线图研究[J].科研管理,2010,31(S1):84-88. 被引量：29
4蔡立辉.政府部门自我扩张行为分析[J].人文杂志,1999(6):76-81. 被引量：8
5肖金明,尹凤桐.论部门主义及其危害[J].山东社会科学,1999(4):60-62. 被引量：12
6汪全胜.行政立法的“部门利益”倾向及制度防范[J].中国行政管理,2002(5):17-18. 被引量：38
7刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
8谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
9韩玉雄,李怀祖.关于中国知识产权保护水平的定量分析[J].科学学研究,2005,23(3):377-382. 被引量：377
10任勇.政策网络的两种分析途径及其影响[J].公共管理学报,2005,2(3):55-59. 被引量：44

共引文献1457

1郑爱翔.基于双维分析框架的农民工职业技能开发政策研究[J].职业技术教育,2021(1):57-64. 被引量：1
2谭海波,郑清清,王海函.地方政府大数据产业政策:工具偏好及其匹配——基于贵州省政策文本的分析[J].中国行政管理,2021(1):52-58. 被引量：29
3张国兴,冯祎琛,王爱玲.不同类型环境规制对工业企业技术创新的异质性作用研究[J].管理评论,2021,33(1):92-102. 被引量：47
4姚旻,赵爱梅,宁志中.中国乡村旅游政策:基本特征、热点演变与“十四五”展望[J].中国农村经济,2021(5):2-17. 被引量：45
5孙正圆.试论2010年以来政府科技人才奖励政策——以山东省为例[J].质量与市场,2021(20):79-81.
6翁小美,饶丽娟.我国高校分类研究的现状、热点与启示——基于2000—2019年期刊论文的计量分析[J].浙江树人大学学报,2020,20(1):111-116. 被引量：2
7李明,曹海军.我国“双碳”政策量化评价与优化研究——基于“结构-工具-效力”的分析框架[J].中国公共政策评论,2023(1):146-164. 被引量：1
8刘纪达,董昌其,王健.进阶与融合:军民科技政策的变迁路径与未来走向[J].中国公共政策评论,2022(1):120-141.
9郑烨,王春萍,段永彪.强制、混合还是自愿:政策工具视角下中央部委新冠疫情防控政策分析及启示[J].中国公共政策评论,2021(1):79-100. 被引量：7
10程翔,刘娅瑄,张玲娜.金融产业数字化升级的制度供给特征——基于政策文本挖掘[J].中国软科学,2021(S01):87-98. 被引量：3

同被引文献40

1李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
2多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009,31(4):117-119. 被引量：18
3李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
4才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(6):187-190. 被引量：10
5马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
6徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报（自然科学版）,2012,34(6):653-657. 被引量：7
7赵维纳,于新,刘汇丹,李琳,王磊,吴健.现代藏语助动词结尾句子边界识别方法[J].中文信息学报,2013,27(1):115-119. 被引量：7
8裴雷,孙建军,周兆韬.政策文本计算:一种新的政策文本解读方式[J].图书与情报,2016(6):47-55. 被引量：85
9王晶金,刘立,王斐.高校与国立科研机构科技成果转移转化政策文本量化研究[J].科学管理研究,2017,35(4):24-27. 被引量：12
10俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：126

引证文献4

1才让叁智,多拉,格桑多吉,洛桑嘎登,仁增多杰.TASSM_BS:基于Bi-LSTM和Self-Attention的藏文自动分句方法[J].中文信息学报,2023,37(5):44-52. 被引量：1
2沈思,陈猛,冯暑阳,许乾坤,刘江峰,王飞,王东波.ChpoBERT:面向中文政策文本的预训练模型[J].情报学报,2023,42(12):1487-1497.
3胡志强,李朋骏,王金龙,熊晓芸.基于ChatGPT增强和监督对比学习的政策工具归类研究[J].计算机工程与应用,2024,60(7):292-305. 被引量：1
4王昀,胡珉,塔娜,孙海涛,郭毅峰,周武爱,郭昱,张皖哲,冯建华.大语言模型及其在政务领域的应用[J].清华大学学报（自然科学版）,2024,64(4):649-658. 被引量：4

二级引证文献6

1余乃忠,宫曼露.大语言模型下文化认同的发生、型构与再序[J].江海学刊,2024(3):51-59.
2张思佳,于红.大模型在水产养殖病害防治中的创新应用与展望[J].大连海洋大学学报,2024,39(3):369-382.
3左星宇.大语言模型在电网企业的应用前景研究[J].科技创新与应用,2024,14(22):9-13.
4向小伟,申艳光,胡明昊,闫天伟,罗威,罗准辰.大模型驱动的科技政策法规问答系统研究[J].计算机科学与探索,2024,18(9):2349-2360.
5贾星星,陆玉,杨龙飞,多拉,王道顺.T-Transformer-XL和T-XLNet:两个藏语预训练模型[J].西安邮电大学学报,2024,29(4):93-99.
6裴炳森,李欣,蒋章涛,刘明帅.基于大语言模型的公安专业小样本知识抽取方法研究[J].计算机科学与探索,2024,18(10):2630-2642.

1冯丽.浅析数字化时代人力资源管理模式的变革[J].消费电子,2021(9):86-87. 被引量：2
2欧文·M.菲斯,程朝阳(译).客观性与解释[J].法律方法,2019,25(3):16-33.
3叶圣陶.书·读书[J].青春期健康,2021,19(22):1-1.
4陈玉,陈泂杉,廖瑶,刘鑫,苏日提.利用大数据及AI自动化评核燃气工程承建商[J].城市燃气,2021(S01):65-71.
5罗翔.在书籍中理解世界[J].中学生阅读（高考版）,2022(3):1-1.
6威廉·福克纳.喧哗与骚动[J].新一代,2021(10):39-39.
7王福丽,韦铖,纪海英,李宇博.低空无人机倾斜摄影测量在城区综合竣工测量中的应用[J].黑龙江科学,2022,13(4):150-151. 被引量：10
8杨荣.回望“昨日的世界”——茨威格诞辰140周年重读《昨日的世界》[J].中国图书评论,2021,44(12):78-90.
9黄无书.数字化艺术修复川北惜字塔的技术途径——以文滩桥惜字塔为例[J].大众文艺（学术版）,2022(2):38-40.
10王景琪,张亚军,李琛,姚丹.基于“治未病”理论探索中医药膳治疗咳嗽的用药规律[J].内蒙古医科大学学报,2021,43(5):471-475. 被引量：2

中文信息学报

2022年第2期

浏览历史

内容加载中请稍等...

基于预训练语言模型的政策识别研究被引量：4

参考文献14

二级参考文献237

共引文献1457

同被引文献40

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的政策识别研究 被引量：4

参考文献14

二级参考文献237

共引文献1457

同被引文献40

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的政策识别研究被引量：4