期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Pobe:一种基于生成式模型的分布外文本检测方法
1
作者 欧阳亚文 高源 +2 位作者 宗石 鲍宇 戴新宇 《软件学报》 EI CSCD 北大核心 2024年第9期4365-4376,共12页
对于安全可靠的机器学习系统,具备检测训练集分布外(out-of-distribution,OOD)样本的能力十分必要.基于似然的生成式模型由于训练时不需要样本标签,是一类非常受欢迎的OOD检测方法.然而,近期研究表明通过似然来检测OOD样本往往会失效,... 对于安全可靠的机器学习系统,具备检测训练集分布外(out-of-distribution,OOD)样本的能力十分必要.基于似然的生成式模型由于训练时不需要样本标签,是一类非常受欢迎的OOD检测方法.然而,近期研究表明通过似然来检测OOD样本往往会失效,并且失效原因与解决方案的探究仍较少,尤其是对于文本数据.从模型层面和数据层面分析文本上失效的原因:生成式模型的泛化性不足和文本先验概率的偏差.在此基础上,提出一种新的OOD文本检测方法Pobe.针对生成式模型泛化性不足的问题,引入KNN检索的方式,来提升模型的泛化性.针对文本先验概率偏差的问题,设计一种偏差校准策略,借助预训练语言模型改善概率偏差对OOD检测的影响,并通过贝叶斯定理证明策略的合理性.通过在广泛的数据集上进行实验,证明所提方法的有效性,其中,在8个数据集上的平均AUROC值超过99%,FPR95值低于1%. 展开更多
关键词 机器学习 分布外检测 生成式模型 文本检索 预训练语言模型
下载PDF
基于广播电台数字音频资料库元数据项的智能分析与检索 被引量:2
2
作者 王晓艳 李国才 《广播电视信息》 2013年第3期111-114,共4页
本文介绍了广播电台数字音频资料库在音频检索方面的管理现状,并对基于资料库元数据项进行智能分析及音频检索涉及的几个主要关键技术进行了研究,提出了实现方法,试图缓解人工标注工作量问题,尽量提高检索准确性。
关键词 数字音频资料库 说话人识别 关键词自动提取及摘要 生成solr文本检索 中文分词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部