期刊文献+
共找到66篇文章
< 1 2 4 >
每页显示 20 50 100
大语言模型评测综述
1
作者 罗文 王厚峰 《中文信息学报》 CSCD 北大核心 2024年第1期1-23,共23页
大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个... 大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。 展开更多
关键词 自然语言处理 大语言模型 模型评测
下载PDF
JADE-DB:基于靶向变异的大语言模型安全通用基准测试集
2
作者 张谧 潘旭东 杨珉 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1113-1127,共15页
提出大语言模型安全通用基准测试集—JADE-DB,该数据集基于靶向变异方法自动化构建,能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题,保持语言自然性的同时不改变其核心语义,且能够攻破十... 提出大语言模型安全通用基准测试集—JADE-DB,该数据集基于靶向变异方法自动化构建,能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题,保持语言自然性的同时不改变其核心语义,且能够攻破十余款国内外知名大语言模型的安全防护机制.根据语言复杂性差异,JADE-DB包含基础、进阶、高危3个安全测试等级,共计上千条覆盖违法犯罪、侵犯权益、歧视偏见和核心价值观4大类违规主题、30多种违规主题的通用测试问题,其中针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大语言模型(英文,4款)这3组大语言模型分别构建的3款通用高危测试集,可造成每组模型在高危测试集上的平均违规率均超过70%,测试问题均可同时触发多款模型违规生成.这表明,语言的复杂性导致现有大语言模型难以学习到人类无穷多种表达方式,因此无法识别其中不变的违规本质. 展开更多
关键词 生成式人工智能安全 大语言模型 大语言模型安全评测 人工智能安全 自然语言处理
下载PDF
基于目标评测模型的城市水环境治理成效评估 被引量:1
3
作者 唐洋博 李玮 +1 位作者 吴一帆 李翀 《人民长江》 北大核心 2023年第2期98-105,共8页
评估城市水环境治理策略成效,对优化城市排水工程布局至关重要。为探索城市水环境治理成效评估的方法,选择湖南省岳阳市东风湖排水片区,针对不同的排水特征构建城市排水目标评测模型,并评价了9种水环境治理策略,即排口强化、源头治理、... 评估城市水环境治理策略成效,对优化城市排水工程布局至关重要。为探索城市水环境治理成效评估的方法,选择湖南省岳阳市东风湖排水片区,针对不同的排水特征构建城市排水目标评测模型,并评价了9种水环境治理策略,即排口强化、源头治理、雨污分流、调蓄池、污水厂提标以及4种综合策略的成效。结果显示:研究构建的目标评测模型既能较好地重现东风湖排水片区的现状,也能大致评估水环境治理策略的成效,COD浓度平均相对误差为0.034。对于单一治理措施,新建调蓄池能降低23%的溢流量,源头治理在消减污染物浓度和溢流量峰值中起到重要作用;相比于单一治理措施,综合治理措施能更好地实现水环境质量的提升,其中策略9能实现东风湖长时间维持Ⅳ类地表水的水平。 展开更多
关键词 环境系统工程 水环境治理 目标评测模型 城市排水系统 东风湖
下载PDF
面向不同行业软件的质量评测模型及实践 被引量:3
4
作者 聂南 邓璐娟 +1 位作者 夏启明 李健勇 《计算机科学》 CSCD 北大核心 2011年第2期156-159,共4页
针对不同的行业类型软件的质量需求和应用,提出了建立对应的软件质量评测模型,论述了系统质量评价时涉及的相关质量特性选择根据和方法。还结合几个实际的工程测量类软件产品,给出了工程测量类软件测试模型的一个应用实例。测评过程展... 针对不同的行业类型软件的质量需求和应用,提出了建立对应的软件质量评测模型,论述了系统质量评价时涉及的相关质量特性选择根据和方法。还结合几个实际的工程测量类软件产品,给出了工程测量类软件测试模型的一个应用实例。测评过程展示了测试实践中遇到的问题和解决方法,如一些接口交互错误和格式化数据类型错误等。最后软件的质量得到了改进,并且统计出一个较全面和客观的评价结果。 展开更多
关键词 质量评测模型 工程测量 接口 交互
下载PDF
基于智能终端的视频通信业务服务质量评测模型研究 被引量:5
5
作者 韩建亭 张夙 《电信科学》 北大核心 2013年第4期27-32,共6页
运营商正在发展基于智能终端的视频通信业务,分析了视频通信业务的服务质量特点以及影响视频通信服务质量的关键因素,在此基础上,对视频主客观质量评估方法进行了分析,建立了视频通信业务服务质量的评测模型并进行了实验室优化验证,为... 运营商正在发展基于智能终端的视频通信业务,分析了视频通信业务的服务质量特点以及影响视频通信服务质量的关键因素,在此基础上,对视频主客观质量评估方法进行了分析,建立了视频通信业务服务质量的评测模型并进行了实验室优化验证,为运营商有针对性地提升视频通信业务的服务质量,提供了终端产品测试依据和评估方法。 展开更多
关键词 视频通信 视频质量评估 智能终端 评测模型
下载PDF
技术创新对国际竞争力作用评测模型研究 被引量:6
6
作者 赖明勇 王建华 《预测》 CSSCI 1999年第1期70-72,60,共4页
本文在总结了技术创新对国际竞争力作用评测模型的研究成果基础上,根据中国技术创新的具体情况。
关键词 技术创新 国际竞争力 评测模型
下载PDF
基于LMS数据的远程学习者学习投入评测模型 被引量:28
7
作者 李爽 李荣芹 喻忱 《开放教育研究》 CSSCI 北大核心 2018年第1期91-102,共12页
学习投入是影响学生学习成就和坚持度的重要学习特征变量,基于学习管理系统记录的数据对远程学习者学习投入的自动化测评,进而优化远程学习过程、提供智能化支持服务具有重要意义。基于此,本文从在线参与、主动交互、自我监控、绩效努... 学习投入是影响学生学习成就和坚持度的重要学习特征变量,基于学习管理系统记录的数据对远程学习者学习投入的自动化测评,进而优化远程学习过程、提供智能化支持服务具有重要意义。基于此,本文从在线参与、主动交互、自我监控、绩效努力四个维度定义了学生基于学习管理系统的26个行为变量,采用经过信效度检验的《远程学习者学习投入量表》,基于国家开放大学四门课程学生样本产生的在线数据和反馈的学习投入数据,探索学习管理系统中记录的行为变量对远程学习投入的预测作用;以课程为控制变量采用多层回归分析法构建远程学习者学习总投入和三类子投入(认知、情感和行为)的评测模型,该模型解释度在24.9%到41.6%之间;对比分析了与学习投入和学习绩效相关的在线行为变量和在线预测模型,发现二者存在显著差异。文章最后对学习管理系统数据特征对学习投入评测模型的影响、远程学习投入在线评测指标以及课程因素对学习投入和学习绩效关系的影响进行了讨论与反思。 展开更多
关键词 远程与开放学习 学习投入 LMS行为数据 评测模型 数据挖掘
下载PDF
出口鼓励政策效果评测模型及应用 被引量:4
8
作者 赖明勇 吴自晟 王明耀 《湖南大学学报(自然科学版)》 EI CAS CSCD 1998年第2期109-112,共4页
探讨了建立出口鼓励政策效果评测模型的理论基础,运用虚变量回归分析技术建立了实际模型,用于中国工业制成品出口鼓励政策效果的评测,对模型实用性进行了验证,并对测算结果进行了实证分析.
关键词 出口贸易 政策 评测模型 中国
下载PDF
基于CMM的中国软件企业评测模型 被引量:4
9
作者 王旭坪 《中国软科学》 CSSCI 北大核心 2004年第3期76-79,共4页
我国软件企业在实施CMM评估时面临资金、技术、企业文化等多方面问题,对此本文基于CMM探索建立了中国软件企业的评测模型,同时探讨了应用该模型的评估方法。大连两家软件企业的应用实践表明了该模型的经济性、实用性和适用性。
关键词 CMM 中国 软件企业 评测模型 软件开发过程 企业文化
下载PDF
基于因子分析法的国产动漫品牌定位评测模型研究 被引量:1
10
作者 高原 肖玮 《经济问题》 CSSCI 北大核心 2015年第12期89-92,共4页
以品牌定位的准确性和差异性为核心要求,结合动漫产品的特点,制定品牌定位评测量表。在进行大样本调研的基础上,对回收数据进行探索性因子分析与验证性因子分析,最终形成动漫品牌定位评测模型。该模型有助于从准确性和差异性视角对动漫... 以品牌定位的准确性和差异性为核心要求,结合动漫产品的特点,制定品牌定位评测量表。在进行大样本调研的基础上,对回收数据进行探索性因子分析与验证性因子分析,最终形成动漫品牌定位评测模型。该模型有助于从准确性和差异性视角对动漫产品品牌进行定位,从而为动漫企业未来的产品开发提供参考。 展开更多
关键词 因子分析法 动漫品牌 品牌定位 评测模型
下载PDF
军队院校本科学员学习动力评测模型及致变因素研究 被引量:1
11
作者 温建华 沈俊 +1 位作者 何中阳 刘怀兴 《科教导刊》 2017年第11期178-181,共4页
学习动力是人才培养质量的关键生成要素,不断提升学习动力是摆在所有教育工作者面前的课题。学习动力在人才培养过程中受诸多外部因素影响不断变化,只有建立起科学的学习动力评测模型,才能及时感知动力态势和变化趋势,找准问题、科学施... 学习动力是人才培养质量的关键生成要素,不断提升学习动力是摆在所有教育工作者面前的课题。学习动力在人才培养过程中受诸多外部因素影响不断变化,只有建立起科学的学习动力评测模型,才能及时感知动力态势和变化趋势,找准问题、科学施策,不断提升学习动力。本文提出了一套贯穿学员四年本科教育的多点多维学习动力评测模型,总结归纳了学习动力13个致变因素,并对不同年级学员学习动力对致变因素的敏感度进行了初步分析。该论文成果已用于指导笔者所在单位的本科生培养工作,效益明显。 展开更多
关键词 军队院校 学习动力 评测模型 致变因素
下载PDF
一个教学评测模型的原理和实现
12
作者 陈圣滔 叶恒青 +1 位作者 贺德化 王明兰 《江汉石油学院学报》 CAS CSCD 北大核心 1996年第4期112-115,共4页
用试卷G(有P道试题)对n个学生测试,通过学生的试题得分矩阵X,建立一个数学模型,对包括多个(m个)教学子目标的教学目标进行综合教学质量测评。该模型借助通信理论中信噪比(S/N)的概念和模糊信息处理方法,利用试题得分... 用试卷G(有P道试题)对n个学生测试,通过学生的试题得分矩阵X,建立一个数学模型,对包括多个(m个)教学子目标的教学目标进行综合教学质量测评。该模型借助通信理论中信噪比(S/N)的概念和模糊信息处理方法,利用试题得分矩阵X,构造教学子目标得分矩阵R,教学子目标得分率矩阵S,熟练评价矩阵F,综合评测矢量b及其分贝值η,并给出了R,S,F,b和η的计算公式。最后给出了一个计算实例,用计算出的综合评测矢量的分贝值η实现了对包括多个教学子目标的教学目标的整体综合评测。 展开更多
关键词 质量评价 教学评测模型 计算机辅助教学 CAI
下载PDF
一种改进的模糊优化评测模型及仿真研究 被引量:2
13
作者 聂勤务 蒋伟进 《微机发展》 2003年第10期92-95,共4页
分析了综合考评的模糊数学原理,建立了改进的多层次多因素综合评测的模糊数学模型,并给出了事务管理的定量分析方法,为人才考评与选拔提供了科学的方法。在对教师综合评测及学科带头人的遴选中应用该方法取得了非常理想的效果,评价结果... 分析了综合考评的模糊数学原理,建立了改进的多层次多因素综合评测的模糊数学模型,并给出了事务管理的定量分析方法,为人才考评与选拔提供了科学的方法。在对教师综合评测及学科带头人的遴选中应用该方法取得了非常理想的效果,评价结果客观公正。该算法实用性好,可操作性强。 展开更多
关键词 模糊数学 模糊优化评测模型 计算机仿真 人才考评 人才选拔
下载PDF
集群网络评测模型的新探索 被引量:6
14
作者 唐渊 孙家昶 +1 位作者 张云泉 张林波 《软件学报》 EI CSCD 北大核心 2005年第6期1131-1139,共9页
传统集群网络(clusterareanetwork,简称cLAN)的评测模型主要考虑了延迟、带宽、路由、拥塞、网络拓扑结构等因素.但这些因素是否足以描述实际应用程序在集群上的通信行为,或者对其在集群系统上的性能给出一个很好的预测呢?当对NASParall... 传统集群网络(clusterareanetwork,简称cLAN)的评测模型主要考虑了延迟、带宽、路由、拥塞、网络拓扑结构等因素.但这些因素是否足以描述实际应用程序在集群上的通信行为,或者对其在集群系统上的性能给出一个很好的预测呢?当对NASParallelBenchmark(2.4版本)在集群系统深腾1800(DeepComp1800)上进行大量测试时发现,集群网络的通信性能可以被一种特殊的通信模式(LU模式)所严重影响.更深入的研究表明,这个影响LU模式的因素是独立于前面所述的如延迟、带宽、路由、拥塞、网络拓扑结构等因素的.因此有必要对集群网络的评测模型重新进行审视,并增加一个新的性能评测因子以反映这个新发现的现象.从研究结果来看,这个重新审视也将对集群系统上的并行算法设计以及实际大规模科学计算的应用程序性能的优化提供一些新的思路. 展开更多
关键词 集群网络(CLAN)评测模型 NPB LINUX集群系统 通信性能评测 通信模式
下载PDF
技术商品评价中一种基于期权的模糊评测模型 被引量:1
15
作者 张奎 刘晨晖 《科学学与科学技术管理》 CSSCI 北大核心 2001年第10期64-65,共2页
在前人定性研究的基础之上,提出了一种技术商品的价值评估的定量方法。该方法首先利用期权评价方法推导出超额利润总值,再利用模糊数学的模糊评判方法测定分割比率,最终导出技术商品的内在价值。
关键词 技术商品 评价 期权 模糊评测模型 评估 B-S方程
下载PDF
基于粒子群算法的乒乓球专选评测指标模型的研究 被引量:2
16
作者 王丽 罗勇 《广州体育学院学报》 CSSCI 北大核心 2009年第3期51-53,63,共4页
以重庆理工大学372名男生和234女生为研究对象,运用粒子群算法建立乒乓球专选的评测指标模型,通过分析得出各种评测指标的分离度和内聚集度,以及学生在各项指标中的得分。该体系在方法学上是可靠的、可行的,能反映出学生的身体素质水平... 以重庆理工大学372名男生和234女生为研究对象,运用粒子群算法建立乒乓球专选的评测指标模型,通过分析得出各种评测指标的分离度和内聚集度,以及学生在各项指标中的得分。该体系在方法学上是可靠的、可行的,能反映出学生的身体素质水平,可以为教师选才和学生选项提供了科学的依据。 展开更多
关键词 乒乓球专选 粒子群算法 评测指标模型
下载PDF
公路线型设计安全性评测技术研究
17
作者 刘晓月 《华东公路》 2023年第6期118-120,共3页
延蒲高速公路工程应用多层次聚类综合模糊评测模型,为线型安全性评测提供技术支持,较好保证了过线山地场地条件的公路线型的安全性质量标准和建设水平。介绍该多层次聚类综合模糊评测模型、工程线型安全性综合评测分析成果以及线型安全... 延蒲高速公路工程应用多层次聚类综合模糊评测模型,为线型安全性评测提供技术支持,较好保证了过线山地场地条件的公路线型的安全性质量标准和建设水平。介绍该多层次聚类综合模糊评测模型、工程线型安全性综合评测分析成果以及线型安全性优化改善措施。 展开更多
关键词 公路线型 安全评测 模型评测 多层次聚类分析
下载PDF
电子化政府评测模型、方法浅析 被引量:1
18
作者 庄莉苹 《江西财经大学学报》 2004年第3期59-63,共5页
世界各国正大力推行电子化政府的建设,有关电子化政府的评测模型推陈出新。本文通过介绍、比较、分析当今世界上不同机构所做的电子化政府评测模型,引出对中国电子政务建设评测的思考,提出中国建设电子化政府的若干建议。
关键词 电子政务 中国 评测模型 政府网站 政务公开 信息化 “政府上网工程” 评测方法
下载PDF
英语朗读发音质量自适应评测模型设计研究 被引量:2
19
作者 臧瑞婷 《自动化技术与应用》 2021年第10期117-120,共4页
基于标准美音声学模型对英语朗读发音进行评测,准确性相对较低,因此本文设计了英语朗读发音质量自适应评测模型,并以实验分析测试了自适应评测模型。结果表明,系统可准确测评朗读发音质量,从而切实反应朗读者英语口语水平;模型在评测朗... 基于标准美音声学模型对英语朗读发音进行评测,准确性相对较低,因此本文设计了英语朗读发音质量自适应评测模型,并以实验分析测试了自适应评测模型。结果表明,系统可准确测评朗读发音质量,从而切实反应朗读者英语口语水平;模型在评测朗读者英语发音时适应性与标准性较高,基于发音准确性、流利性、完整性,可全面衡量朗读发音质量;智能校对系统基于灭错计算进行发音识别评测与校对,可提升语音识别能力,提高评测准确性,以根本上避免评测混乱;利用支持向量回实现特征融合,接近评分特征与人工评分的非线性关系,可保障发音质量评测准确性与可靠性。 展开更多
关键词 英语朗读 发音质量 自适应 评测模型
下载PDF
大学生的核心价值观认知水平评测模型探析
20
作者 唐力 周旸 《淮阴师范学院学报(自然科学版)》 CAS 2015年第4期303-306,共4页
大学生的社会主义核心价值观教育是关系到社会主义未来发展的前途和命运问题.大学生的社会主义核心价值观认知水平评测的4种模型为评测提供了4种不同角度的量化方法.这为了解大学生的社会主义核心价值观状况提供了一条量化路径,对开展... 大学生的社会主义核心价值观教育是关系到社会主义未来发展的前途和命运问题.大学生的社会主义核心价值观认知水平评测的4种模型为评测提供了4种不同角度的量化方法.这为了解大学生的社会主义核心价值观状况提供了一条量化路径,对开展有针对性的社会主义核心价值观教育和提升教育效果都有一定的意义. 展开更多
关键词 大学生 社会主义核心价值观 评测模型
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部