期刊文献+
共找到143篇文章
< 1 2 8 >
每页显示 20 50 100
基于时空模式的轨迹数据聚类算法 被引量:17
1
作者 石陆魁 张延茹 张欣 《计算机应用》 CSCD 北大核心 2017年第3期854-859,895,共7页
针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨... 针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨迹段划分;最后根据子轨迹段间时空相似性,采用基于密度的聚类算法进行聚类。实验结果表明,使用所提算法提取的轨迹特征点在保证特征点具有较好简约性的前提下较为准确地描述了轨迹结构,同时基于时空特征的相似性度量因同时兼顾了轨迹的空间与时间特征,得到了更好的聚类结果。 展开更多
关键词 时空模式 轨迹数据 曲线边缘检测 相似性度量 密度聚类
下载PDF
基于大数据的IPTV视频评估模型 被引量:1
2
作者 顾军华 高星 +2 位作者 王守彬 武君艳 张素琪 《计算机应用与软件》 北大核心 2018年第8期231-237,共7页
随着网络信息技术的发展以及"三网融合"的推进,交互式网络电视IPTV成为越来越多用户的选择,成为新媒体中的一支主力军,但快速发展的同时也面临着巨大的挑战。如何有效评估供应商提供的大量视频,选择符合用户需求的视频成为IPT... 随着网络信息技术的发展以及"三网融合"的推进,交互式网络电视IPTV成为越来越多用户的选择,成为新媒体中的一支主力军,但快速发展的同时也面临着巨大的挑战。如何有效评估供应商提供的大量视频,选择符合用户需求的视频成为IPTV发展的关键问题。提出利用新媒体和传统媒体的视频大数据和IPTV历史收视大数据,在Spark平台上使用BP神经网络建立视频评估模型。基于新媒体和传统媒体从视频收视度、视频影响度和视频内容三个方面完善视频评估体系;基于IPTV历史收视大数据,建立反映IPTV受众群体喜好的视频隐式评分策略,使用BP神经网络构建视频评估模型;针对大数据的海量性,在Spark并行化平台上建立视频评估模型,实现数据的并行训练,完成模型的建立。实验结果证明,新的视频评估模型能从IPTV受众群体的角度有效评估视频,在Spark平台上进行评估模型的训练,能够有效提高大数据量的评估模型训练速度。 展开更多
关键词 大数据 IPTV视频评估模型 隐式评分 SPARK BP神经网络
下载PDF
基于PB-DBSCAN的GPS数据去噪 被引量:2
3
作者 汪鹏 刘泽玲 +1 位作者 王利琴 董永峰 《计算机工程与设计》 北大核心 2021年第3期678-683,共6页
针对公交车GPS数据量大、数据密度不均匀、噪声点多等问题,提出PB-DBSCAN(pixel_based-DBSCAN,PB-DBSCAN)算法。将聚类过程中判断数据点之间的关系改为判断像素格之间的关系,减小数据点邻域中的搜索范围,加快聚类速度。因公交线路的多样... 针对公交车GPS数据量大、数据密度不均匀、噪声点多等问题,提出PB-DBSCAN(pixel_based-DBSCAN,PB-DBSCAN)算法。将聚类过程中判断数据点之间的关系改为判断像素格之间的关系,减小数据点邻域中的搜索范围,加快聚类速度。因公交线路的多样性,同一聚类参数无法适应所有线路,提出一种动态参数选择的方法。在石家庄公交车GPS实际数据集上进行实验,其结果表明,PB-DBSCAN可以有效识别并过滤GPS数据集中的噪声点,实现快速聚类。与采用固定参数的算法进行比较,参数的动态选择提高了聚类准确度。 展开更多
关键词 GPS轨迹数据 基于像素格的快速密度聚类 动态参数选择 像素格 去噪
下载PDF
联合MOD11A1和地面气象站点数据的多站点温度预测深度学习模型 被引量:1
4
作者 张军 吴朋莉 +2 位作者 石陆魁 史进 潘斌 《计算机应用》 CSCD 北大核心 2023年第1期321-328,共8页
针对地面气象站点分布稀疏影响站点间关系以及站点间的关系强度推理难的问题,提出一种基于联合MOD11A1和地面气象站点数据的多站点温度预测深度学习模型(GDM)。GDM包括时空注意力(TSA)、双向图神经长短期记忆(DG-LSTM)网络编码和边-点... 针对地面气象站点分布稀疏影响站点间关系以及站点间的关系强度推理难的问题,提出一种基于联合MOD11A1和地面气象站点数据的多站点温度预测深度学习模型(GDM)。GDM包括时空注意力(TSA)、双向图神经长短期记忆(DG-LSTM)网络编码和边-点转换双向门控循环网络解码(EN-GRU)模块。首先使用TSA模块提取MOD11A1图像特征并形成多个虚拟气象站点的温度时间序列,缓解地面气象站点分布稀疏对站点间关系的影响;然后用DG-LSTM编码器通过融合两组温度时间序列来计算地面气象站点间和虚拟气象站点间的关系强度;最后用ENGRU解码器通过结合站点间的关系强度对地面气象站点的温度时间序列关系进行建模。实验结果表明,相较于二维卷积神经网络(2D-CNN)、长短期记忆全连接网络(LSTM-FC)、长短期记忆神经网络扩展网络(LSTME)和长短记忆与自适应提升集成网络(LSTM-AdaBoost),GDM在10个地面气象站点24 h内温度预测的平均绝对误差(MAE)分别减小0.383℃、0.184℃、0.178℃和0.164℃,能提高未来24 h多个气象站点温度的预测精度。 展开更多
关键词 温度预测 注意力机制 深度学习 长短期记忆网络 门控循环单元 图神经网络 MOD11A1 地面气象站点
下载PDF
面向不平衡数据集的改进SMOTE算法 被引量:9
5
作者 董永峰 董彦琦 张亚娟 《河北工业大学学报》 CAS 2022年第6期40-46,共7页
合成少数类过采样技术(SMOTE)提升了分类器在不平衡数据集上的分类性能,但该算法在合成新样本时存在盲目性和边缘化的问题。为此,提出了一种改进算法BSMOTE,该算法对少数类样本进行聚类,在聚类产生的各个簇中任取三个样本构造三角形,在... 合成少数类过采样技术(SMOTE)提升了分类器在不平衡数据集上的分类性能,但该算法在合成新样本时存在盲目性和边缘化的问题。为此,提出了一种改进算法BSMOTE,该算法对少数类样本进行聚类,在聚类产生的各个簇中任取三个样本构造三角形,在三角形的重心与顶点之间合成新样本,从而使新样本向重心靠拢并远离决策边界。在7个不平衡数据集上,采用6种不同的过采样算法平衡数据集,再利用随机森林进行分类,实验结果表明,基于BSMOTE算法的随机森林分类性能更佳,验证了该算法在解决不平衡数据分类问题中的优势。 展开更多
关键词 不平衡数据集 SMOTE算法 聚类 过采样 随机森林
下载PDF
基于异构网络拓扑数据的人类必要基因预测
6
作者 李建伟 岳宗河 +1 位作者 黄焱 段向欢 《河北工业大学学报》 CAS 2018年第3期36-41,共6页
对必要基因进行研究不仅能够了解生物生存和繁殖的最低要求,且有助于寻找人类疾病基因和新的药物靶点.实验法鉴定人类必要基因虽有效但价格昂贵且耗时费力,开发高效算法预测必要基因是对实验法必要而有效的补充.提出一种基于融合多个异... 对必要基因进行研究不仅能够了解生物生存和繁殖的最低要求,且有助于寻找人类疾病基因和新的药物靶点.实验法鉴定人类必要基因虽有效但价格昂贵且耗时费力,开发高效算法预测必要基因是对实验法必要而有效的补充.提出一种基于融合多个异构网络拓扑数据预测必要基因的算法,该算法选用重启动随机游走算法将多个异构网络整合成统一的基因网络特征,采用SMOTE过抽样算法平衡训练支持向量机过程中的正负样本.实验结果表明,整合异构网络拓扑数据方法比基于单一网络的模型能更有效地预测人类必要基因. 展开更多
关键词 人类必要基因 异构网络 过抽样 重启动随机游走 支持向量机
下载PDF
融合注意力机制与联合优化的表面缺陷检测 被引量:3
7
作者 董永峰 孙松毅 +1 位作者 王振 刘晶 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第1期102-111,共10页
两段式缺陷检测模型中分割和分类网络的优化目标不一致,导致二者耦合性较差,且分割模块误差的积累可能进一步弱化分类模块的性能.针对上述问题,提出一种基于注意力机制的缺陷检测联合优化算法.首先基于混合注意力特征融合模块的分割网... 两段式缺陷检测模型中分割和分类网络的优化目标不一致,导致二者耦合性较差,且分割模块误差的积累可能进一步弱化分类模块的性能.针对上述问题,提出一种基于注意力机制的缺陷检测联合优化算法.首先基于混合注意力特征融合模块的分割网络融合浅层特征和深层特征,提取更全面的缺陷位置信息;然后基于多感受野空间注意力模块的分类网络挖掘更具判别性的缺陷类别特征;最后通过联合优化目标实现分割和分类网络的学习优化,提升整个算法的耦合性以及性能.基于PyTorch框架,在公开工业缺陷检测数据集DAGM 2007, MAGNETIC-TILE和KolektorSDD2数据集上进行实验,并引入分段式算法及类U-Net算法进行横向对比的结果表明,所提算法的准确率相比分段式算法最高提升28.02%,相比类U-Net算法最高提升8.3%,且精确率、召回率、F1值均优于同类算法,具有更好的检测性能. 展开更多
关键词 深度学习 特征融合 缺陷检测 注意力机制
下载PDF
不完整多视图聚类综述 被引量:1
8
作者 董瑶 付怡雪 +2 位作者 董永峰 史进 陈晨 《计算机应用》 CSCD 北大核心 2024年第6期1673-1682,共10页
多视图聚类是近年来图数据挖掘领域的研究热点。由于数据采集技术的限制或人为因素等原因常导致视图或样本缺失问题。降低多视图的不完整性对聚类效果的影响是多视图聚类目前面临的重大挑战。因此,综合研究不完整多视图聚类(IMC)近年的... 多视图聚类是近年来图数据挖掘领域的研究热点。由于数据采集技术的限制或人为因素等原因常导致视图或样本缺失问题。降低多视图的不完整性对聚类效果的影响是多视图聚类目前面临的重大挑战。因此,综合研究不完整多视图聚类(IMC)近年的发展具有重要的理论意义和实践价值。首先,归纳分析不完整多视图数据缺失类型;其次,详细比较基于多核学习(MKL)、矩阵分解(MF)学习、深度学习和图学习这4类IMC方法,分析代表性方法的技术特点和区别;再次,从数据集类型、视图和类别数量、应用领域等角度总结22个公开不完整多视图数据集;继次,总结评价指标,并系统分析现有不完整多视图聚类方法在同构和异构数据集上的性能表现;最后,归纳分析不完整多视图聚类目前存在的问题、未来的发展方向和现有应用领域。 展开更多
关键词 不完整性 多视图聚类 图数据挖掘 缺失视图 多视图学习
下载PDF
融合先验知识和字形特征的中文命名实体识别
9
作者 董永峰 白佳明 +1 位作者 王利琴 王旭 《计算机应用》 CSCD 北大核心 2024年第3期702-708,共7页
针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入... 针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。 展开更多
关键词 命名实体识别 注意力机制 卷积神经网络 双向长短时记忆 条件随机场
下载PDF
基于个性化学习和深层次细化的知识追踪
10
作者 李林昊 张晓倩 +2 位作者 董瑶 王旭 董永峰 《计算机应用》 CSCD 北大核心 2024年第10期3039-3046,共8页
针对知识追踪(KT)模型没有充分考虑学生间差异、挖掘知识状态与习题的高度匹配等问题,提出一种双层网络架构——基于个性化学习和深层次细化的知识追踪(PLDRKT)。首先,利用增强注意力机制得到习题的深层次细化表示;其次,从不同学生对习... 针对知识追踪(KT)模型没有充分考虑学生间差异、挖掘知识状态与习题的高度匹配等问题,提出一种双层网络架构——基于个性化学习和深层次细化的知识追踪(PLDRKT)。首先,利用增强注意力机制得到习题的深层次细化表示;其次,从不同学生对习题的难度感知和学习收益方面对初步知识状态进行个性化建模;最后,利用初步知识状态和深层习题表示得到学生的深层次知识状态并预测他们的未来答题情况。将PLDRKT模型与基于对抗训练的增强知识追踪(ATKT)和集成知识追踪(ENKT)等7种模型在Statics2011、ASSIST09、ASSIST15和ASSIST17数据集上进行对比实验。实验结果显示,PLDRKT模型的曲线下面积(AUC)均有增加,在4个数据集上与不考虑习题嵌入的最优基线模型相比,分别增加了0.61、1.32、5.29和0.19个百分点,可见PLDRKT模型可以较好地建模学生知识状态并预测回答。 展开更多
关键词 知识追踪 注意力 深层次细化 高度匹配 个性化
下载PDF
融合实体语义及结构信息的知识图谱推理
11
作者 王利琴 张特 +2 位作者 许智宏 董永峰 杨国伟 《计算机应用》 CSCD 北大核心 2024年第11期3371-3378,共8页
目前,图注意力网络(GAT)通过引入注意力机制对目标实体的邻域实体赋予不同权重并进行信息聚合,使得它更关注实体的局部邻域,忽略了图结构中实体和关系之间的拓扑结构;而且在多头注意力后将输出嵌入向量简单拼接或平均,导致注意力头之间... 目前,图注意力网络(GAT)通过引入注意力机制对目标实体的邻域实体赋予不同权重并进行信息聚合,使得它更关注实体的局部邻域,忽略了图结构中实体和关系之间的拓扑结构;而且在多头注意力后将输出嵌入向量简单拼接或平均,导致注意力头之间相互独立,未能捕捉不同注意力头的重要语义信息。针对GAT应用于知识图谱(KG)推理任务时未充分挖掘实体结构信息和语义信息的问题,提出融合实体语义及结构信息的知识图谱推理(FESSI)模型。首先,使用TransE将实体和关系表示为同一空间的嵌入向量。其次,提出交互注意力机制,将GAT中多头注意力重新融合成多个混合注意力,增强注意力头之间的交互性,以提取目标实体更丰富的语义信息;同时,利用关系图卷积网络(R-GCN)提取实体的结构信息,并通过权重矩阵学习GAT和R-GCN的输出特征向量。最后,使用ConvKB作为解码器进行评分。在知识图谱数据集Kinship、NELL-995和FB15K-237上的实验结果表明,FESSI模型的效果优于多数对比模型,在3个数据集的平均倒数排名(MRR)指标上的结果分别为0.964、0.565和0.562。 展开更多
关键词 知识图谱 知识图谱推理 关系图卷积网络 图注意力网络 交互注意力机制
下载PDF
融合关系层次结构的知识图谱嵌入
12
作者 许智宏 谭金鸽 +1 位作者 王利琴 董永峰 《计算机应用与软件》 北大核心 2024年第2期152-157,228,共7页
针对目前知识图谱嵌入方法大都侧重于三元组中的实体和关系信息,忽略了三元组之外与关系相关的丰富信息,提出一种融合关系层次结构信息的知识图谱嵌入方法CompGCN-RHS。在关系表示中融入关系的层次结构信息,将实体和关系联合进行嵌入学... 针对目前知识图谱嵌入方法大都侧重于三元组中的实体和关系信息,忽略了三元组之外与关系相关的丰富信息,提出一种融合关系层次结构信息的知识图谱嵌入方法CompGCN-RHS。在关系表示中融入关系的层次结构信息,将实体和关系联合进行嵌入学习,通过在聚合邻居节点信息时引入注意力机制来学习不同邻居节点对于中心节点的不同贡献。在数据集Sport上该方法的MRR、Hits@1分别提升2.2百分点和2.3百分点;在Location上分别提升了4.7百分点和6百分点,实验结果验证了该方法的有效性。 展开更多
关键词 知识图谱 图卷积神经网络 知识图谱嵌入 链接预测
下载PDF
基于加权特征融合与局部特征注意的人种分类
13
作者 董永峰 钟璨 +1 位作者 齐巧玲 李林昊 《计算机工程与设计》 北大核心 2024年第9期2683-2689,共7页
为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型... 为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型(weighted feature fusion and local feature attention model,WFLA)。模型设计加权特征融合模块增强浅层与深层特征的交互,构建局部特征注意模块重点关注区分性部位。在3个公开数据集中的大规模验证实验验证了WFLA模型在人种分类任务中具有明显优势。 展开更多
关键词 人种分类 注意力机制 多层融合 深度学习 局部特征 特征提取 特征交互
下载PDF
将行为依赖融入多任务学习的个性化推荐模型
14
作者 顾军华 李宁宁 +1 位作者 王鑫鑫 张素琪 《计算机科学与探索》 CSCD 北大核心 2024年第1期231-243,共13页
多种类型行为数据的引入缓解了协同过滤算法存在的数据稀疏和冷启动问题,在推荐领域被广泛研究和应用。尽管当前对多行为推荐的研究已经取得很大进展,但仍然存在以下问题:未能全面捕获行为之间复杂的依赖关系;忽略了行为特征与用户和项... 多种类型行为数据的引入缓解了协同过滤算法存在的数据稀疏和冷启动问题,在推荐领域被广泛研究和应用。尽管当前对多行为推荐的研究已经取得很大进展,但仍然存在以下问题:未能全面捕获行为之间复杂的依赖关系;忽略了行为特征与用户和项目的相关性。这导致学习到的特征向量无法准确表达用户的兴趣偏好,使得推荐结果存在偏差。为了解决以上问题,提出了将行为依赖融入多任务学习的个性化推荐模型(BDMR),将行为之间复杂的依赖关系分为特征相关性和时序相关性。首先,设置用户个性化行为向量,利用图神经网络处理多个单行为交互图,联合用户、项目和行为特征聚合高阶邻域信息,结合注意力机制学习行为之间的特征相关性;其次,将行为特征和项目特征构成的交互序列输入长短期记忆网络,捕获行为之间的时序相关性;最后,将个性化行为向量融入多任务学习框架获取更加准确的用户、行为和项目特征。为了验证提出模型的性能,在三个真实数据集上进行对比实验,在Yelp数据集上,相较于最优基线,HR和NDCG分别提升了1.5%和2.9%;在ML20M数据集上,HR和NDCG分别提升了2.0%和0.5%;在Tmall数据集上,HR和NDCG分别提升了25.6%和30.2%。实验结果表明,该模型优于其他的基准模型。 展开更多
关键词 多行为推荐 图神经网络 循环神经网络 多任务学习框架
下载PDF
问题特征增强的知识追踪模型 被引量:1
15
作者 许智宏 张惠斌 +2 位作者 董永峰 王利琴 王旭 《计算机科学与探索》 CSCD 北大核心 2024年第9期2466-2475,共10页
知识追踪根据学生过去的答题表现实时跟踪学生的知识状态并预测学生未来的答题表现,是实现个性化教学的关键。近年来,基于RNN的深度知识追踪模型逐渐成为知识追踪领域中的主流研究方法。但是,现有的知识追踪模型存在无法捕获序列间长期... 知识追踪根据学生过去的答题表现实时跟踪学生的知识状态并预测学生未来的答题表现,是实现个性化教学的关键。近年来,基于RNN的深度知识追踪模型逐渐成为知识追踪领域中的主流研究方法。但是,现有的知识追踪模型存在无法捕获序列间长期依赖以及忽略了问题与知识点间关系的问题,导致无法充分提取问题特征。针对上述问题,提出了基于问题特征增强的知识追踪模型QFEKT。使用图卷积神经网络对问题和知识点相关特征进行建模,建模过程中引入对比学习提升特征表示水平。通过问题匹配模块与学生知识状态表征模块进一步增强问题特征:通过问题匹配模块提取相似问题作为问题特征的补充;通过学生问题表征模块将双向长短期记忆网络与注意力机制结合增强问题特征建模学生的知识状态。预测模块融合相似问题特征与学生知识状态预测学生未来答题表现。在三个公开真实数据集上进行对比实验,QFEKT模型与其他基线模型相比可以更好完成知识追踪任务,在预测学生未来答题表现上具有明显优势。 展开更多
关键词 知识追踪 特征增强 图卷积神经网络 对比学习 注意力机制
下载PDF
基于历史对比学习的时序知识图谱补全 被引量:1
16
作者 许智宏 邱鹏林 +1 位作者 王利琴 董永峰 《计算机工程与应用》 CSCD 北大核心 2024年第22期154-161,共8页
针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for compa... 针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for comparing historical and non-historical information,CHNH)。该模型通过BiLSTM捕捉序列中的长期依赖关系,确保准确地编码历史信息。使用RGCN进行图卷积操作,从而学习到全局的图表示。在预测过程中,针对分开编码的历史和非历史信息,采用不同的评分函数来确定预测实体对这两类信息的依赖程度。通过这种方式,模型能够更有效地补全实体和关系,提高模型的预测性能。在ICEWS18、GDELT和YAGO数据集上的实验结果表明,CHNH模型在MRR、Hits@1、Hits@3和Hits@10上普遍优于基线模型。 展开更多
关键词 时序知识图谱 历史信息 非历史信息 对比学习
下载PDF
基于三元互信息的成对多标签特征选择算法研究
17
作者 张平 王光磊 +1 位作者 张亚娟 曹宇 《计算机科学与应用》 2024年第10期10-21,共12页
基于信息论的特征选择算法在度量候选特征所提供的分类信息时,往往仅考虑单一标签的情况,忽略了候选特征和成对标签存在的多样关联关系,这可能导致低估了候选特征的重要性。为解决这一问题,提出一种新颖的基于三元互信息的成对多标签特... 基于信息论的特征选择算法在度量候选特征所提供的分类信息时,往往仅考虑单一标签的情况,忽略了候选特征和成对标签存在的多样关联关系,这可能导致低估了候选特征的重要性。为解决这一问题,提出一种新颖的基于三元互信息的成对多标签特征选择算法(Pairwise multi-label feature selection based on interaction mutual information, IPFS)。具体地,IPFS算法为不同的成对标签分配基于三元互信息的不同权重,并据此权重测量候选特征为两个标签提供的分类信息总量,从而精确评估候选特征的重要性,同时基于最大相关最小冗余原则,筛选出最优的特征子集。最后,将提出的算法与其他8个先进的特征选择算法在12个多样化的数据集上进行了比较。实验结果表明,IPFS在3个评估指标上均显著优于其他算法。The feature selection methods based on information theory usually focus on considering the single label when evaluating the classification information provided by the candidate features, and do not take into account the multiple correlations between the candidate features and the paired labels, thus underestimating the importance of the candidate features. To solve this issue, an innovative paired multi-label feature selection method based on interaction mutual information (IPFS) was proposed. Specifically, IPFS method assigns different weights based on interaction mutual information to different pairs of labels, so as to accurately evaluate the importance of candidate features, and further select the most suitable feature subset based on the maximum correlation minimum redundancy strategy. To verify the effectiveness of the proposed method, IPFS is compared with eight other advanced feature selection methods on 12 diverse datasets, and the results show that IPFS significantly outperforms other methods on four different evaluation metrics. 展开更多
关键词 机器学习 特征选择 三元互信息 分类
下载PDF
基于平衡损失和多级注意力的溯因推理方法
18
作者 李林昊 王澳 +3 位作者 孙树国 吕欢 徐铭 王振 《闽南师范大学学报(自然科学版)》 2024年第1期27-39,共13页
针对溯因自然语言推理任务(aNLI)中存在的问题,即正确假设之间存在一定独立性,且对推理的贡献存在不一致性,设计一种“平衡正样本softmax聚焦损失”,调整正确假设概率影响程度,并平衡样本损失权重.此外,在aNLI中,正样本与负样本之间的... 针对溯因自然语言推理任务(aNLI)中存在的问题,即正确假设之间存在一定独立性,且对推理的贡献存在不一致性,设计一种“平衡正样本softmax聚焦损失”,调整正确假设概率影响程度,并平衡样本损失权重.此外,在aNLI中,正样本与负样本之间的关联性往往体现在特定的短语上,这些短语对判断样本的合理性至关重要.因此设计多级注意力模型,通过多层次的注意力机制逐步细化,从而实现对短语级特征的深层次关注.这个新模型被命名为平衡损失多级注意力MAT-Ball模型.结果表明,MAT-Ball模型在Roberta-large预训练模型上取得了最高的性能,与公开可获得代码的方法相比,ACC和AUC结果分别增加了约1%和0.5%.同时,研究比较了在低资源和损失收敛性方面的性能,证明了所提出的方法的效率和鲁棒性. 展开更多
关键词 自然语言推理 溯因推理 预训练模型 注意力机制
下载PDF
融合图谱重构的时序知识图谱推理
19
作者 许智宏 张天润 +1 位作者 王利琴 董永峰 《计算机工程与应用》 CSCD 北大核心 2024年第9期181-187,共7页
针对现有时序知识图谱模型多数基于静态知识图谱快照序列进行推理,无法充分捕获细粒度时序特征的问题,设计了基于图谱重构的时序知识图谱推理模型(graph reconstruction for temporal knowledge reasoning,GRTKR)。该模型通过对实体的... 针对现有时序知识图谱模型多数基于静态知识图谱快照序列进行推理,无法充分捕获细粒度时序特征的问题,设计了基于图谱重构的时序知识图谱推理模型(graph reconstruction for temporal knowledge reasoning,GRTKR)。该模型通过对实体的时间邻域进行采样完成时序知识图谱重构,结合时间编码器提供的显式时序特征与邻域特征聚合器提供的隐式时序特征来提升对时序数据建模的能力。在时序知识图谱数据集ICEWS14、ICEWS05-15、YAGO11K上的实验验证了方法的有效性,并且相比于主流基线模型,MRR、Hits@1、Hits@3、Hits@10评价指标均有明显提升。 展开更多
关键词 时序知识图谱 推理 图谱重构 图卷积神经网络 门控循环单元
下载PDF
基于知识图谱的案件特征增强法律判决预测
20
作者 李紫阳 张亚娟 +1 位作者 黄义雄 王云鹤 《计算机应用研究》 CSCD 北大核心 2024年第7期2153-2159,共7页
现有基于知识图谱的法律判决预测方法重点关注案件的要素实体和关系,不能充分地获取案件的特征信息。针对该问题,提出了一种增强案件特征融合的知识图谱法律判决预测方法。首先,该方法利用双向门控循环神经网络挖掘事实描述文本深层次... 现有基于知识图谱的法律判决预测方法重点关注案件的要素实体和关系,不能充分地获取案件的特征信息。针对该问题,提出了一种增强案件特征融合的知识图谱法律判决预测方法。首先,该方法利用双向门控循环神经网络挖掘事实描述文本深层次的因果、时序等全文语义特征信息。然后通过知识图谱向量空间中案例间相似度注意力计算学习类案特征表示。最后,融合特征信息和知识图谱的结构化知识,丰富实体和关系在案件事实文本中的语义特征表示,实现法律判决链路预测任务。在危险驾驶罪和盗窃罪两类罪名数据集上的实验结果显示,该方法在MRR、Hit@1两个关键评价指标上与当前表现最好的链路预测模型相比提升了1.5%左右,Hit@3和Hit@10等指标也均有提升,验证了案件特征增强融合能补充法律知识图谱中缺失的案件特征信息并提高预测的效果。 展开更多
关键词 知识图谱嵌入 特征增强 历史相似案例 法律判决链路预测
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部