期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
重新审视面向CNN模型的测试样例选取:考虑模型校准
1
作者 赵通 沙朝锋 《计算机科学》 CSCD 北大核心 2024年第6期34-43,共10页
深度神经网络(DNN)已被广泛应用于各种任务,而在部署前对DNN进行充分测试尤为重要,因此需要构建能够对DNN进行充分测试的测试集。由于标注成本受限,通常通过测试样例选取的方式得到测试子集。然而,人们使用基于预测不确定性的方法(该方... 深度神经网络(DNN)已被广泛应用于各种任务,而在部署前对DNN进行充分测试尤为重要,因此需要构建能够对DNN进行充分测试的测试集。由于标注成本受限,通常通过测试样例选取的方式得到测试子集。然而,人们使用基于预测不确定性的方法(该方法在发现误分类样例和提升重训练表现方面表现出卓越的能力)进行测试样例选取时,忽略了对测试样例的预测不确定性估计是否准确的问题。为了填补上述研究的空白,通过实验定性和定量地揭示了模型校准程度和测试样例选取任务中使用的不确定性指标之间的相关性。校准模型会使模型有更准确的预测不确定性估计,因此研究了不同校准程度的模型用不确定指标选取得到的测试子集质量是否不同。在3个公开数据集和4个卷积神经网络(CNN)架构模型上进行了充分的实验和分析,结果表明在CNN架构模型上:1)不确定指标和模型校准存在一定程度的相关性;2)校准程度好的模型所选择的测试子集质量优于校准程度差的模型选择的测试子集质量。在发现模型误分类样例的能力上,70.57%经过校准训练后的模型对应的实验结果优于未校准模型对应的实验结果。因此在测试样例选取任务中考虑模型校准十分重要,且可以使用模型校准来提升测试样例选取的表现。 展开更多
关键词 卷积神经网络测试 预测不确定性 模型校准 测试样例选取
下载PDF
兴趣度——关联规则的又一个阈值 被引量:91
2
作者 周欣 沙朝锋 +1 位作者 朱扬勇 施伯乐 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期627-633,共7页
关联规则的采掘是数据采掘研究的一个重要方面 .分析现有的关联规则采掘算法中所存在的问题 :首先是关联规则在其表达形式上没有考虑各种可能的反面示例的影响 ,因而导致知识表达功能的不够完善 ;其次是有可能一条规则即使可信度和支持... 关联规则的采掘是数据采掘研究的一个重要方面 .分析现有的关联规则采掘算法中所存在的问题 :首先是关联规则在其表达形式上没有考虑各种可能的反面示例的影响 ,因而导致知识表达功能的不够完善 ;其次是有可能一条规则即使可信度和支持度都很高 ,仍没有实际意义 ,甚至是误导性的 .因此对关联规则的形式定义作了修改 ,将运用差异思想引入的兴趣度阈值运用到关联规则中来 ,并给出其形式定义 .在分析了兴趣度的实际意义以后 ,讨论了兴趣度与概念层次的结合 . 展开更多
关键词 数据采掘 关联规则 兴趣度 概念层次 阈值 数据
下载PDF
一种基于学习的高维数据c-近似最近邻查询算法 被引量:18
3
作者 袁培森 沙朝锋 +1 位作者 王晓玲 周傲英 《软件学报》 EI CSCD 北大核心 2012年第8期2018-2031,共14页
针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用... 针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻.与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题. 展开更多
关键词 随机投影 c-近似最近邻查询 支持向量机分类器 高维数据 熵最大化准则 位置敏感哈希
下载PDF
语义对等网构造及搜索机制研究 被引量:28
4
作者 宋建涛 沙朝锋 +1 位作者 杨智应 朱洪 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期645-652,共8页
对等网文件共享系统能否成功极大地取决于搜索机制的多样性和扩展性 当前支持分布式Hash表 (DHT)功能的结构化系统 (如CAN)易扩展但不能有效地支持部分匹配的查询 ,而基于扩散的非结构化系统 (如Gnutella)支持多样化查询但不易扩展 ... 对等网文件共享系统能否成功极大地取决于搜索机制的多样性和扩展性 当前支持分布式Hash表 (DHT)功能的结构化系统 (如CAN)易扩展但不能有效地支持部分匹配的查询 ,而基于扩散的非结构化系统 (如Gnutella)支持多样化查询但不易扩展 提出了一种新的对等网体系结构 基于CAN构造的pGroup介于结构化和非结构化之间 :结点根据内容的类别自组织在一起 ,具有相同类别的结点相互关联构成语义对等网 (semanticpeer to peernetworks ,SPNs) 针对不同的查询行为 ,提出了相应的搜索算法 实验表明 ,pGroup比Gnutella的扩展性好 。 展开更多
关键词 对等网 内容编址网 搜索 算法
下载PDF
电子商务商品归一化方法研究 被引量:10
5
作者 王立 张蓉 +2 位作者 沙朝锋 王晓玲 周傲英 《计算机学报》 EI CSCD 北大核心 2014年第2期312-325,共14页
电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中... 电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性. 展开更多
关键词 实体识别 模式集成 数据清理 逻辑斯蒂回归 聚类 电子商务中图法
下载PDF
基于KL距离的非平衡数据半监督学习算法 被引量:11
6
作者 许震 沙朝锋 +1 位作者 王晓玲 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2010年第1期81-87,共7页
在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当... 在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性. 展开更多
关键词 半监督学习 非平衡 KL距离 朴素贝叶斯 LOGISTIC回归
下载PDF
考虑观点多样性的评论选择问题 被引量:3
7
作者 余文喆 沙朝锋 +1 位作者 何晓丰 张蓉 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1050-1060,共11页
在线用户评论向消费者提供了丰富的商品信息,帮助他们挑选从日常用品到娱乐活动相关的商品.然而,评论的数量之大让用户难以对商品有一个清晰的认识.现有解决电子商务网站中评论信息过载问题的方法包括评估评论质量以及总结评论观点等.但... 在线用户评论向消费者提供了丰富的商品信息,帮助他们挑选从日常用品到娱乐活动相关的商品.然而,评论的数量之大让用户难以对商品有一个清晰的认识.现有解决电子商务网站中评论信息过载问题的方法包括评估评论质量以及总结评论观点等.但是,基于评论质量排序的方法可能信息冗余,而评论总结方法忽视上下文导致易读性较差.因此,需要实现有效的评论选择方法.设计了基于字典和规则以及基于主题模型LDA的观点获取算法来形式化地表示每条评论;提出一种基于贪心算法的评论选择方法,实现从商品评论集中选择一组高质量的评论,并最大化评论集的商品属性覆盖度和评论观点多样性.最后在真实数据集上对算法进行实验来验证该算法,实验结果表明了该算法的有效性. 展开更多
关键词 评论选择 评论质量 观点多样性 属性覆盖度 观点获取算法
下载PDF
基于内存计算的大规模图数据管理研究 被引量:2
8
作者 袁培森 舒欣 +1 位作者 沙朝锋 徐焕良 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第5期55-71,共17页
图是一种重要的数据模型,能够描述结构化的信息,在诸如交通网络、社交网络、Web页面链接关系等领域应用广泛,因而获得了广泛的研究.海量的图数据管理对传统的图分析处理技术提出了挑战,分布式集群计算为大规模图数据分析提供了基础平台... 图是一种重要的数据模型,能够描述结构化的信息,在诸如交通网络、社交网络、Web页面链接关系等领域应用广泛,因而获得了广泛的研究.海量的图数据管理对传统的图分析处理技术提出了挑战,分布式集群计算为大规模图数据分析提供了基础平台.随着计算机硬件性价比的大幅提升以及高性能应用需求,基于内存计算的海量数据处理技术获得了业界青睐.图数据高效存储和计算与内存计算密切相关,在此背景下,文章综述了大规模图数据处理相关技术进展,研究了典型的基于内存计算的大规模图数据管理系统,最后总结了基于内存计算的图数据管理的关键点. 展开更多
关键词 内存计算 图数据 分布式计算
下载PDF
基于深度学习的图异常检测技术综述 被引量:11
9
作者 陈波冯 李靖东 +3 位作者 卢兴见 沙朝锋 王晓玲 张吉 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1436-1455,共20页
图异常检测旨在大图或海量图数据库中寻找“陌生”或“不寻常”模式,具有广泛的应用场景.深度学习可以从数据中学习隐含的规律,在提取数据中潜在复杂模式方面表现出优越的性能.近年来随着基于深度神经网络的图表示学习取得显著进展,如... 图异常检测旨在大图或海量图数据库中寻找“陌生”或“不寻常”模式,具有广泛的应用场景.深度学习可以从数据中学习隐含的规律,在提取数据中潜在复杂模式方面表现出优越的性能.近年来随着基于深度神经网络的图表示学习取得显著进展,如何利用深度学习方法进行图异常检测引起了学术界和产业界的广泛关注.尽管最近一系列研究从图的角度对异常检测技术进行了调研,但是缺少对深度学习技术下的图异常检测技术的关注.首先给出了静态图和动态图上各类常见的异常定义,然后调研了基于深度神经网络的图表示学习方法,接着从静态图和动态图的角度出发,梳理了基于深度学习的图异常检测的研究现状,并总结了图异常检测的应用场景和相关数据集,最后讨论了图异常检测技术目前面临的挑战和未来的研究方向. 展开更多
关键词 异常检测 深度学习 图网络 图表示学习 图神经网络
下载PDF
基于Stack Overflow的数据库相关主题分析 被引量:2
10
作者 刘蕴涵 沙朝锋 牛军钰 《计算机科学》 CSCD 北大核心 2021年第6期48-56,共9页
数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方法。文中获取了Stack Overflow上94473条与数据库相关的问题,... 数据库管理系统虽是一种较为成熟的软件系统,但开发人员在应用数据库系统进行数据管理以及数据分析时还是会遇到各种问题,因此会在Stack Overflow之类的问答论坛上寻求解决方法。文中获取了Stack Overflow上94473条与数据库相关的问题,应用LDA主题模型将这些问题归为25个主题,结果显示开发者的问题可归为"表""SQL""SELECT"等主题。通过研究与数据库相关的不同主题的流行度和困难程度发现,"SQL"主题相关的问题较为流行。除此以外,文中还分别研究了3种不同的数据库,即MySQL,Oracle和MongoDB,分析了与不同数据库系统相关的问题的主题分布。文中的研究成果有助于了解数据库开发者所面临的挑战,从而为数据库系统版本更新、数据库课程教学内容的设置,甚至是数据库领域的研究问题提供参考。 展开更多
关键词 Stack Overflow 数据库 LDA 主题建模
下载PDF
电子商务网站搜索引擎检索串分析 被引量:1
11
作者 冯亮 沙朝锋 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期79-83,105,共6页
在电子商务网站中,关键字搜索是用户查询商品的一种重要手段,其中计算检索串中的切词权重则是搜索引擎查询处理时的一个重要步骤.本文总结了现有计算切词权重方法的不足,提出了一种新方法.该方法结合切词重要性和相关性确定切词权重,有... 在电子商务网站中,关键字搜索是用户查询商品的一种重要手段,其中计算检索串中的切词权重则是搜索引擎查询处理时的一个重要步骤.本文总结了现有计算切词权重方法的不足,提出了一种新方法.该方法结合切词重要性和相关性确定切词权重,有效地提高了切词权重确定的准确性,是一种切实可行的计算切词权重的方法. 展开更多
关键词 信息检索 搜索引擎 切词权重
下载PDF
基于随机投影和主成分分析的网络嵌入后处理算法 被引量:2
12
作者 胡昕彤 沙朝锋 刘艳君 《计算机科学》 CSCD 北大核心 2021年第5期124-129,共6页
网络嵌入作为网络表示学习,近年来受到了研究人员的广泛关注。目前,已有许多基于网络结构学习网络中结点的低维向量表示的模型,如DeepWalk等,并且这些模型在结点分类和链接预测等任务中取得了良好的效果。然而,随着网络规模的增大,多个... 网络嵌入作为网络表示学习,近年来受到了研究人员的广泛关注。目前,已有许多基于网络结构学习网络中结点的低维向量表示的模型,如DeepWalk等,并且这些模型在结点分类和链接预测等任务中取得了良好的效果。然而,随着网络规模的增大,多个网络嵌入算法存在计算瓶颈问题。为缓解该问题,可采用诸如随机投影这类无需学习的方法,但这样可能会丢失网络结构的关键信息,致使算法性能下降。为此,文中提出了一种网络嵌入的后处理算法PPNE(Post-Processing Network Embedding),该算法结合了随机投影以及主成分分析,有效地保留了网络结构的关键信息,保持了网络结构的高阶近似性。将所提算法与其他网络嵌入算法在3个公共数据集上针对结点分类和链接预测任务进行实验对比,以验证其有效性。实验结果表明,PPNE算法在运行速度和预测性能方面相比其他算法有较大的提升,尤其是该算法在保证良好任务效果的同时,运行速度比其他基于学习的算法提升了至少两个数量级。 展开更多
关键词 随机投影 主成分分析 网络嵌入 结点分类 链接预测
下载PDF
基于CCA和数据引力场模型的社交媒体信息置信度评估方法 被引量:1
13
作者 张萌 李杨 沙朝锋 《微型电脑应用》 2014年第9期41-44,53,共5页
近年来,微博平台作为社交媒体载体之一,已经成为新闻信息传播的重要工具。然而,微博平台自身特性决定了其无法提供避免谣言或是虚假信息传递的有效机制。针对这一问题,建立一套完整的算法框架来判断微博的置信度。首先,从不同视角对微... 近年来,微博平台作为社交媒体载体之一,已经成为新闻信息传播的重要工具。然而,微博平台自身特性决定了其无法提供避免谣言或是虚假信息传递的有效机制。针对这一问题,建立一套完整的算法框架来判断微博的置信度。首先,从不同视角对微博数据提取特征,并将这些多视角的特征通过典型相关分析法(Canonical Correlation Analysis,以下简称CCA)映射到共同子空间中。接下来,从物理学的重力场理论中获得启发,设计一种新的判别学习算法——数据引力场模型(Data Gravitational Field,以下简称DGF)并从大量信息中判别出错误信息或虚假信息。实验表明,这种信息置信度自动检测方法能够达到较高的准确率和召回率。同时,相比较于其它学习算法,数据引力场模型也有更好的表现。 展开更多
关键词 信息置信度 典型相关分析 数据引力场 社交媒体
下载PDF
基于次模函数最大化的测试用例集约简 被引量:1
14
作者 文进 张星宇 +1 位作者 沙朝锋 刘艳君 《计算机科学》 CSCD 北大核心 2021年第12期75-84,共10页
随着软件回归测试规模的不断增大和成本的不断增加,测试用例集约简对于提高软件的回归测试效率显得愈发重要。在选取测试用例子集时,需考虑该子集的代表性和多样性,并采用一个有效的算法来求解。针对该测试用例集约简问题,文中提出了一... 随着软件回归测试规模的不断增大和成本的不断增加,测试用例集约简对于提高软件的回归测试效率显得愈发重要。在选取测试用例子集时,需考虑该子集的代表性和多样性,并采用一个有效的算法来求解。针对该测试用例集约简问题,文中提出了一种基于次模函数最大化的算法SubTSR。尽管引入的离散优化问题是NP-hard问题,但文中利用其目标函数的次模性,采用启发式贪心搜索,求得有近似度保证的次优解。在15个数据集上对SubTSR算法与其他测试用例集约简算法展开实验,针对平均错误检出率、错误检测损失率、首次错误检出位等指标,尝试改变LDA处理中的主题个数以及衡量测试用例相似度的距离,以验证SubTSR算法的有效性。实验结果表明,SubTSR算法在错误检出性能上较其他算法有着较大提升,且在多个数据集上的表现保持相对稳定。在主题个数变化引起文本表示变化时,采用曼哈顿距离的SubTSR算法的性能相较其他算法仍能保持相对稳定。 展开更多
关键词 软件测试 测试用例集约简 错误检测 主题模型 次模函数
下载PDF
基于最优输运和k-近邻的离群文档检测 被引量:1
15
作者 水泽农 张星宇 沙朝锋 《计算机科学》 CSCD 北大核心 2021年第7期105-111,共7页
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题。但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测。现... 离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题。但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测。现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性。基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值。针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法。该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度。该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性。在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响。 展开更多
关键词 离群文档检测 最优输运 词搬动距离 层次型最优主题输运
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部