大语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注.然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤...大语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注.然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤为重要.因此,使用涵盖了9个常见NLP任务的15个数据集(约147000个原始测试样本)和来自TextFlint的61种鲁棒的文本变形方法分析GPT-3和GPT-3.5系列模型在原始数据集上的性能,以及其在不同任务和文本变形级别(字符、词和句子)上的鲁棒性.研究结果表明,GPT模型虽然在情感分析、语义匹配等分类任务和阅读理解任务中表现出良好的性能,但其处理信息抽取任务的能力仍较为欠缺,比如其对关系抽取任务中各种关系类型存在严重混淆,甚至出现“幻觉”现象.在鲁棒性评估实验中,GPT模型在任务层面和变形层面的鲁棒性都较弱,其中,在分类任务和句子级别的变形中鲁棒性缺乏更为显著.此外,探究了模型迭代过程中性能和鲁棒性的变化,以及提示中的演示数量和演示内容对模型性能和鲁棒性的影响.结果表明,随着模型的迭代以及上下文学习的加入,模型的性能稳步提升,但是鲁棒性依然亟待提升.这些发现从任务类型、变形种类、提示内容等方面揭示了GPT模型还无法完全胜任常见的NLP任务,并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决.通过对gpt-3.5-turbo的更新版本、gpt-4模型,以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现进行对比,进一步验证了实验结论.鉴于此,未来的大模型研究应当提升模型在信息提取以及语义理解等方面的能力,并且应当在模型训练或微调阶段考虑提升其鲁棒性.展开更多
提出一种高精度的ZWD模型(tianjin_zwd,TZ)。TZ基于2016-2018年逐小时气压分层的ERA5,欧洲中尺度气象预报中心第五代再分析产品数据,采用BP神经网络建立。然后,根据2019年的ERA5产品导出的ZWD对TZ模型进行了验证。结果表明:相比GPT3模型...提出一种高精度的ZWD模型(tianjin_zwd,TZ)。TZ基于2016-2018年逐小时气压分层的ERA5,欧洲中尺度气象预报中心第五代再分析产品数据,采用BP神经网络建立。然后,根据2019年的ERA5产品导出的ZWD对TZ模型进行了验证。结果表明:相比GPT3模型,TZ模型可提供更贴近真值的ZWD估值;并且,其RMSE由5.0 cm (GPT3)降至4.5 cm,表明10%的精度提升。上述结果表明TZ模型实现了更优的预测性能,该模型的构建策略可为全国其他地区的ZWD建模提供借鉴。展开更多
对流层延迟是影响高精度导航定位的关键因素,同时也是进行全球卫星导航系统(global navigation satellite system,GNSS)水汽反演的重要数据。中国西北区域地形起伏较大,目前中国西北地区对流层天顶延迟模型在高程方面顾及不足,无法满足...对流层延迟是影响高精度导航定位的关键因素,同时也是进行全球卫星导航系统(global navigation satellite system,GNSS)水汽反演的重要数据。中国西北区域地形起伏较大,目前中国西北地区对流层天顶延迟模型在高程方面顾及不足,无法满足实时高精度定位需求,因此建立高精度中国西北地区对流层延迟模型成为迫切需求。针对当前中国西北地区ZTD(zenith total delay)模型未同时顾及非线性高程归算以及季节变化等问题,利用2015—2017年欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts,ECMWF)的ERA5资料建立顾及非线性高程归算的中国西北地区对流层天顶延迟模型(MZTD模型)。联合未参与建模的2018年ERA5资料和中国西北陆态网84个GNSS测站数据,验证MZTD模型的精度和适用性,并与目前使用广泛的GPT3模型进行精度对比。结果表明:以2018年ERA5资料和中国西北陆态网测站数据为参考值,MZTD模型的均方根误差(root mean square error RMS)分别为3.14 cm和2.81 cm,相对于GPT3模型精度分别提高了约16.3%和21.7%,同时MZTD减少模型参数,提升了模型计算效率。因此,顾及非线性高程归算的MZTD模型在中国西北区域体现了更好的精度和适用性,可以为中国西北地区进行实时GNSS水汽探测和导航定位提供重要参考。展开更多
文摘大语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注.然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤为重要.因此,使用涵盖了9个常见NLP任务的15个数据集(约147000个原始测试样本)和来自TextFlint的61种鲁棒的文本变形方法分析GPT-3和GPT-3.5系列模型在原始数据集上的性能,以及其在不同任务和文本变形级别(字符、词和句子)上的鲁棒性.研究结果表明,GPT模型虽然在情感分析、语义匹配等分类任务和阅读理解任务中表现出良好的性能,但其处理信息抽取任务的能力仍较为欠缺,比如其对关系抽取任务中各种关系类型存在严重混淆,甚至出现“幻觉”现象.在鲁棒性评估实验中,GPT模型在任务层面和变形层面的鲁棒性都较弱,其中,在分类任务和句子级别的变形中鲁棒性缺乏更为显著.此外,探究了模型迭代过程中性能和鲁棒性的变化,以及提示中的演示数量和演示内容对模型性能和鲁棒性的影响.结果表明,随着模型的迭代以及上下文学习的加入,模型的性能稳步提升,但是鲁棒性依然亟待提升.这些发现从任务类型、变形种类、提示内容等方面揭示了GPT模型还无法完全胜任常见的NLP任务,并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决.通过对gpt-3.5-turbo的更新版本、gpt-4模型,以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现进行对比,进一步验证了实验结论.鉴于此,未来的大模型研究应当提升模型在信息提取以及语义理解等方面的能力,并且应当在模型训练或微调阶段考虑提升其鲁棒性.
文摘提出一种高精度的ZWD模型(tianjin_zwd,TZ)。TZ基于2016-2018年逐小时气压分层的ERA5,欧洲中尺度气象预报中心第五代再分析产品数据,采用BP神经网络建立。然后,根据2019年的ERA5产品导出的ZWD对TZ模型进行了验证。结果表明:相比GPT3模型,TZ模型可提供更贴近真值的ZWD估值;并且,其RMSE由5.0 cm (GPT3)降至4.5 cm,表明10%的精度提升。上述结果表明TZ模型实现了更优的预测性能,该模型的构建策略可为全国其他地区的ZWD建模提供借鉴。
文摘对流层延迟是影响高精度导航定位的关键因素,同时也是进行全球卫星导航系统(global navigation satellite system,GNSS)水汽反演的重要数据。中国西北区域地形起伏较大,目前中国西北地区对流层天顶延迟模型在高程方面顾及不足,无法满足实时高精度定位需求,因此建立高精度中国西北地区对流层延迟模型成为迫切需求。针对当前中国西北地区ZTD(zenith total delay)模型未同时顾及非线性高程归算以及季节变化等问题,利用2015—2017年欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts,ECMWF)的ERA5资料建立顾及非线性高程归算的中国西北地区对流层天顶延迟模型(MZTD模型)。联合未参与建模的2018年ERA5资料和中国西北陆态网84个GNSS测站数据,验证MZTD模型的精度和适用性,并与目前使用广泛的GPT3模型进行精度对比。结果表明:以2018年ERA5资料和中国西北陆态网测站数据为参考值,MZTD模型的均方根误差(root mean square error RMS)分别为3.14 cm和2.81 cm,相对于GPT3模型精度分别提高了约16.3%和21.7%,同时MZTD减少模型参数,提升了模型计算效率。因此,顾及非线性高程归算的MZTD模型在中国西北区域体现了更好的精度和适用性,可以为中国西北地区进行实时GNSS水汽探测和导航定位提供重要参考。