语言资源视角下的大规模语言模型治理被引量：4

Governance of Large Language Models from the Perspective of Language Resources

下载PDF

导出

摘要近半年来,柴语生(ChatGPT)等大规模生成式语言模型的应用,引发了全社会的关注和反思。对这种大模型,应以工具观加以正视,认可其技术发展带来的益处,同时尽量规避其风险。对它们的治理,应减少对技术本身的干预,将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理,应着力打破中文数据孤岛:发展以联邦学习为代表的分布式模型构建技术,建立国家知识数据开放机制,尽快健全开放、高效的语言数据交换市场;提倡世界知识中文表达,助推中文大模型研发:尽快实现中文精华知识资源面向网络开放,完善中文概念、术语资源,做大、做全领域中文资源。对大模型使用领域的治理,则因大模型本身也是一种重要的语言资源,故应强调其基础资源地位,从标准化、评测和伦理规制的角度进行。 Over the past six months,the application of large language models such as ChatGPT has drawn international attention and sparked critical reflection in the whole world.In this paper,it is argued that these large language models should be viewed as instrumental tools that bring about benefits with their technological development as well as risks in the application.Consequently,their governance should be focused less on technological intervention,and more on language resources vital for their development and application.Regarding the governance of language resources in large language model development,eff orts should be made to break down the data silos of Chinese language resources,develop distributed model construction technologies through federated learning,establish open-accessed national knowledge data mechanisms,and expand the open and efficient language data exchange markets.These eff orts are aimed to promote Chinese expression of world knowledge and facilitate the development of Chinese large language models.Since the large language models are an important language resource in nature,their fundamental resource status should be emphasized in the application,and perspectives of standardization,evaluation,and ethical regulation should be taken in their governance.

作者饶高琦胡星雨易子琳 Rao Gaoqi;Hu Xingyu;Yi Zilin

机构地区北京语言大学国际中文教育研究院北京语言大学中国语言文字规范标准研究中心

出处《语言战略研究》北大核心 2023年第4期19-29,共11页 Chinese Journal of Language Policy and Planning

基金教育部人文社科青年项目“清末以来汉语报刊词汇使用计量研究”(20YJC740050) 北京语言大学梧桐创新平台(21PT04)。

关键词柴语生语言资源大规模语言模型语言治理 ChatGPT language resources large language model language governance

分类号 H002 [语言文字—语言学]

引文网络
相关文献

参考文献21

1张华平,李林翰,李春锦.ChatGPT中文性能测评与风险应对[J].数据分析与知识发现,2023,7(3):16-25. 被引量：47
2徐大明.语言资源管理规划及语言资源议题[J].郑州大学学报（哲学社会科学版）,2008,41(1):12-15. 被引量：55
3文秋芳.国家语言能力的内涵及其评价指标[J].云南师范大学学报（哲学社会科学版）,2016,48(2):23-31. 被引量：90
4王春辉.数字时代语言伦理的新形态和新表现[J].社会科学战线,2022(12):152-159. 被引量：3
5王春辉.语言数据安全论[J].语言战略研究,2022,7(4):15-25. 被引量：9
6谭作文,张连福.机器学习隐私保护研究综述[J].软件学报,2020,31(7):2127-2156. 被引量：53
7饶高琦,夏恩赏,李琪.近10年国际学术论文中的语言选择和中文使用情况分析研究[J].语言文字应用,2020(2):37-51. 被引量：22
8邱质朴.试论语言资源的开发——兼论汉语面向世界问题[J].语言教学与研究,1981(3):111-123. 被引量：51
9李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述[J].计算机科学,2020,47(3):162-173. 被引量：97
10李宇明,朱海平.论中国语言测试学的发展[J].语言文字应用,2020(3):59-68. 被引量：8

二级参考文献130

1李宇明.提升国家语言能力的若干思考[J].南开语言学刊,2011(1):1-8. 被引量：156
2田小琳.注重多方位培训提高普通话水平测试成效[J].首都师范大学学报（社会科学版）,2009(S3):17-23. 被引量：3
3冯志伟.论语言文字的地位规划和本体规划[J].中国语文,2000(4):363-377. 被引量：24
4陈章太.再论语言生活调查[J].语言教学与研究,1999(3):23-33. 被引量：15
5戴曼纯.语言学研究中“语言能力”的界定问题[J].语言教学与研究,1997(2):94-105. 被引量：46
6刘英林.中国汉语水平考试十年（一）[J].汉语学习,1996(4):47-51. 被引量：9
7陈章太.语文生活调查刍议[J].语言文字应用,1994(1):11-13. 被引量：11
8邱质朴.试论语言资源的开发——兼论汉语面向世界问题[J].语言教学与研究,1981(3):111-123. 被引量：51
9王冰欣.PETS5与WSK(EPT)的异同及其科学性初探[J].外语教学,2000,21(2):93-96. 被引量：5
10陆俭明.跨入新世纪后我国汉语应用研究的三个主要方面[J].中国语文,2000(6):516-524. 被引量：26

共引文献752

1刘友华,李扬帆.ChatGPT生成技术方案的专利法保护探究[J].知识产权,2023(7):76-89. 被引量：3
2支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023,41(4):34-48. 被引量：34
3梁京涛,张振达.知识产权视角下的语言数据产权问题研究[J].制度经济学研究,2023(4):216-231. 被引量：1
4梁京涛.语言数据生产要素功能的实现路径刍议[J].制度经济学研究,2022(4):222-233. 被引量：2
5刘国辉,张卫国.语言与健康治理——语言生活和语言经济研究的新议题[J].制度经济学研究,2021(4):1-13. 被引量：2
6李君灵,孙丰缘.基于ChatGPT看人工智能生成内容(AIGC)在学术研究中的应用探索——以黄河流域生态体育旅游为例[J].忻州师范学院学报,2023,39(5):59-65. 被引量：3
7陈练文.我国语言弱势群体研究:内涵、外延与思考[J].语言政策与规划研究,2022(2):97-109. 被引量：1
8周大军,邵宗宝.军事领域外语能力的资源规划与建设:美军的经验及其启示[J].语言政策与规划研究,2022(1):39-54.
9李宝贵,李慧,张千聪.改革开放以来我国语言生活研究的热点、趋势与走向[J].语言政策与规划研究,2020(2).
10沈骑.全球语言治理研究的范式变迁与基本任务[J].语言文字应用,2021(3):30-40. 被引量：10

同被引文献42

1梁京涛,张振达.知识产权视角下的语言数据产权问题研究[J].制度经济学研究,2023(4):216-231. 被引量：1
2梁京涛.语言数据生产要素功能的实现路径刍议[J].制度经济学研究,2022(4):222-233. 被引量：2
3徐斌,徐寿波.生产要素层次理论[J].北京交通大学学报（社会科学版）,2006,5(4):15-18. 被引量：14
4李宇明.当今人类三大语言话题[J].云南师范大学学报（哲学社会科学版）,2008,40(4):21-26. 被引量：65
5李宇明.语言也是“硬实力”[J].华中师范大学学报（人文社会科学版）,2011,50(5):68-72. 被引量：123
6李宇明.认识语言的经济学属性[J].语言文字应用,2012(3):2-8. 被引量：95
7王巍,李艳.对当前语言培训行业的调查与思考[J].语言文字应用,2012(3):33-40. 被引量：17
8陆琢行.努力成为合格的责任编辑[J].中国编辑,2014(3):79-83. 被引量：1
9冯志伟.机器翻译与人工智能的平行发展[J].外国语,2018,41(6):35-48. 被引量：81
10许煜,程祥钰(译).马克思、西蒙东与自动化的政治[J].马克思主义与现实,2018,70(6):147-152. 被引量：4

引证文献4

1李宇明.人机共生时代的语言数据问题[J].华中师范大学学报（人文社会科学版）,2023,62(5):135-143. 被引量：2
2冯志伟,张灯柯.语言模型与人工智能[J].外语研究,2024,41(1):1-19. 被引量：1
3秦兰珺.智能机器的政治经济学审视——在AI时代,读“机器论片段”[J].首都师范大学学报（社会科学版）,2024(1):72-83.
4李宇明,梁京涛.语言数据的生产要素功能与产权制度构建[J].语言教学与研究,2024(2):1-11.

二级引证文献3

1李宇明,梁京涛.语言数据的生产要素功能与产权制度构建[J].语言教学与研究,2024(2):1-11.
2冯志伟,张灯柯.计算语言学中语言知识生产范式的变迁[J].当代修辞学,2024(2):23-44.
3余江英,杨晓珊,郑开文.人机共教:AIGC赋能国际中文新手教师智慧备课的新生态[J].云南师范大学学报（对外汉语教学与研究版）,2024,22(2):49-59.

1李凤文.主动作为健全资产风险分类管理[J].中国农村金融,2023(8):25-26.
235岁是个戒烟的“分水岭”[J].医食参考,2023(2):44-44.
3黄汉桥.课程资源视角的数学“长作业”探究[J].数学通讯,2023(10):14-18. 被引量：1
4张庆龙,何佳楠,芮柏松.内部审计工作模式与信息化关系的历史演进--基于信息技术二重性理论分析[J].审计文摘,2022(3):86-91.
5林瑀欢,王辉.共同富裕示范区建设的语言向度[J].浙江师范大学学报（社会科学版）,2023,48(3):10-19. 被引量：1
6无.第三届全球语言治理论坛会议通知[J].语言文字应用,2023(1):56-56.
7陈瑞,曾建勋.叙词表集成化体系及应用推进研究[J].情报学报,2022,41(4):401-411.
8单衍菲,马源.以数字技术赋能加快建设国际一流营商环境[J].中国发展观察,2023(3):30-34.
9赵杭飞.语言治理视域下高校外语课程思政创新教学的思考[J].齐齐哈尔大学学报（哲学社会科学版）,2023(6):142-145. 被引量：1
10黎海恩,刘鹏.广电5G接入问题分析与研究[J].中文科技期刊数据库（全文版）工程技术,2023(5):0004-0007.

语言战略研究

2023年第4期

浏览历史

内容加载中请稍等...

语言资源视角下的大规模语言模型治理被引量：4

参考文献21

二级参考文献130

共引文献752

同被引文献42

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

语言资源视角下的大规模语言模型治理 被引量：4

参考文献21

二级参考文献130

共引文献752

同被引文献42

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

语言资源视角下的大规模语言模型治理被引量：4