科学研究第四范式到来,数据基础设施如何应对?

导出

摘要随着以大数据和人工智能技术为代表的新一轮科学技术革命加速演进,研究者们对于科研数据的获取需求也不断提升。互联网上的公开数据成为了以大语言模型为代表的人工智能技术发展的主要原料,先进的大语言模型均需要大规模的文本数据进行预训练,例如AlexaTM使用了1.3万亿个Token进行训练、Chinchilla-7OB使用了1.4万亿个Token进行训练。

作者黄罡杨婧如马郓蔡华谦杨勇景翔

机构地区数据空间技术与系统全国重点实验室北京大学计算机学院北京大学软件与微电子学院

出处《科技纵览》 2023年第7期60-63,共4页 IEEE Spectrum

基金国家重点研发计划“新型研发机构创新服务平台技术研发与应用”项目(项目编号:2021YFF0901100) 北京高等学校卓越青年科学家项目(项目编号:BJJWZYJHO1201910001004) 中国石油一北京大学基础研究合作项目、新基石科学基金会所设立的科学探索奖的支持。

关键词人工智能技术文本数据大数据语言模型科学技术革命预训练科研数据 ALEXA

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1滕腾,黄罡,陈兴润,梅宏.网构软件数据语用的一种动态支撑方法[J].软件学报,2008,19(5):1160-1172. 被引量：5
2罗超然,马郓,景翔,黄罡.数据空间基础设施的技术挑战及数联网解决方案[J].大数据,2023,9(2):110-121. 被引量：6

二级参考文献2

1MEI Hong HUANG Gang ZHAO Haiyan JIAO Wenpin.A software architecture centric engineering approach for Internetware[J].Science in China(Series F),2006,49(6):702-730. 被引量：37
2滕腾,黄罡,陈兴润,梅宏.网构软件数据语用的一种动态支撑方法[J].软件学报,2008,19(5):1160-1172. 被引量：5

共引文献9

1万静,刘健,王学伟,易军凯.基于XML的异构数据库信息共享方法研究[J].北京化工大学学报（自然科学版）,2010,37(5):130-134. 被引量：4
2李晓丽,杜振龙,吴冰洁.基于IL的遗产软件规约析取算法研究[J].南京工业大学学报（自然科学版）,2014,36(6):137-142.
3罗超然,马郓,景翔,黄罡.数据空间基础设施的技术挑战及数联网解决方案[J].大数据,2023,9(2):110-121. 被引量：6
4杨小康,许岩岩,陈露,王韫博,高岳,田济东,俞凯,金耀辉,梅宏.AI for Science:智能化科学设施变革基础研究[J].中国科学院院刊,2024,39(1):59-69. 被引量：5
5李林,任伏虎,蔡华谦,董锦华,叶自燊.基于时空码和数联网技术的新型“可信数据空间”体系构想[J].信息通信技术与政策,2024,50(6):89-96.
6刘博文,夏义堃.基于数据空间的产业数据流通利用:逻辑框架与技术实现[J].图书与情报,2024(2):33-44.
7沈志宏,朱小杰,王华进,佟继周,郭学兵,吴慧,敏玉芳,吴林寰.科学数据网络:概念、系统与应用[J].数据与计算发展前沿（中英文）,2024,6(4):3-21.
8杨婧如,蔡华谦,杨勇,李影,刘佳.面向“融合科学”新范式的科学数据跨中心可信共享技术框架[J].数据与计算发展前沿（中英文）,2024,6(4):22-33.
9蔡华谦,刘逸豪,关天鹏,吴恺东,杨婧如,罗超然,朱小杰,刘佳,黄罡.DPML:一种面向科学数据语用的标记语言[J].数据与计算发展前沿（中英文）,2024,6(4):46-58.

1莫远军.传统制造业数字化现状及发展策略分析[J].中国机械,2023(15):70-73. 被引量：1
2西藏超Chill[J].西藏旅游,2023(4):20-21.
3China-Brasil:una creciente amistad[J].今日中国（西文版）,2023(1):42-44.
4Perspectivas de la relación China-ALC en 2023[J].今日中国（西文版）,2023(3):34-36.
5China-CELAC:una relación clave para el Sur Global[J].今日中国（西文版）,2023(2):32-33.
6David J.K.Smith,Charlotte R.Pouwels,Marc Heemskerk,Benedetta M.Cattani,Esther Konijnenberg,Robert Heemskerk,Sebasthian Ogalde.Overview of the CHILL-ICE 2021 Science Experiments and Research Campaign[J].Space(Science & Technology),2022(1):27-35.
7张丽,张晓飞,石国秀,吕康,豆倩,李永红,姚孝元,郑山.宁波市O_(3)与气象因素短期暴露对死亡人数的影响及交互作用[J].中华疾病控制杂志,2023,27(5):522-527. 被引量：3
8本刊编辑部.元宇宙情报局[J].销售与市场,2023(19):88-89.
9唐晓倩,王菲菲.地球系统科学理念下地质数据采集趋势及启示[J].中国矿业,2023,32(9):182-186.
10Wang Wei,Brad Green.Poyang Lake:a Peari of Jiangxi[J].Beijing,2021(39):54-57.

科技纵览

2023年第7期

浏览历史

内容加载中请稍等...

科学研究第四范式到来,数据基础设施如何应对?

参考文献2

二级参考文献2

共引文献9

相关作者

相关机构

相关主题

浏览历史