摘要
随着以大数据和人工智能技术为代表的新一轮科学技术革命加速演进,研究者们对于科研数据的获取需求也不断提升。互联网上的公开数据成为了以大语言模型为代表的人工智能技术发展的主要原料,先进的大语言模型均需要大规模的文本数据进行预训练,例如AlexaTM使用了1.3万亿个Token进行训练、Chinchilla-7OB使用了1.4万亿个Token进行训练。
出处
《科技纵览》
2023年第7期60-63,共4页
IEEE Spectrum
基金
国家重点研发计划“新型研发机构创新服务平台技术研发与应用”项目(项目编号:2021YFF0901100)
北京高等学校卓越青年科学家项目(项目编号:BJJWZYJHO1201910001004)
中国石油一北京大学基础研究合作项目、新基石科学基金会所设立的科学探索奖的支持。