期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于开放网络知识的信息检索与数据挖掘 被引量:96
1
作者 王元卓 贾岩涛 +2 位作者 刘大伟 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期456-474,共19页
网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.... 网络大数据是指"人、机、物"三元世界在网络空间(cyberspace)中交互、融合所产生并在互联网上可获得的大数据.这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的实时性强.网络大数据背后蕴含着丰富的、复杂关联的知识.建立面向开放网络的知识库是获取网络大数据中的丰富知识的有效手段.对当前国内外主要的开放网络库进行了比较,分析了相应的构建方法、多源知识的融合以及知识库的更新等关键技术.进一步从用户意图理解、查询扩展、语义问答、线索挖据、关系推理以及关系和属性预测等方面出发,总结了基于开放网络知识库的信息检索、数据挖掘与系统应用的研究现状和主要问题.最后,对开放网络知识库的发展趋势和面临的主要挑战进行了展望. 展开更多
关键词 网络大数据 开放网络知识 本体 信息检索 数据挖掘
下载PDF
面向图的异常检测研究综述 被引量:16
2
作者 李忠 靳小龙 +1 位作者 庄传志 孙智 《软件学报》 EI CSCD 北大核心 2021年第1期167-193,共27页
近年来,随着Web 2.0的普及,使用图挖掘技术进行异常检测受到人们越来越多的关注.图异常检测在欺诈检测、入侵检测、虚假投票、僵尸粉丝分析等领域发挥着重要作用.在广泛调研国内外大量文献以及最新科研成果的基础上,按照数据表示形式将... 近年来,随着Web 2.0的普及,使用图挖掘技术进行异常检测受到人们越来越多的关注.图异常检测在欺诈检测、入侵检测、虚假投票、僵尸粉丝分析等领域发挥着重要作用.在广泛调研国内外大量文献以及最新科研成果的基础上,按照数据表示形式将面向图的异常检测划分成静态图上的异常检测与动态图上的异常检测两大类,进一步按照异常类型将静态图上的异常分为孤立个体异常和群组异常检测两种类别,动态图上的异常分为孤立个体异常、群体异常以及事件异常这3种类型.对每一类异常检测方法当前的研究进展加以介绍,对每种异常检测算法的基本思想、优缺点进行分析、对比,总结面向图的异常检测的关键技术、常用框架、应用领域、常用数据集以及性能评估方法,并对未来可能的发展趋势进行展望. 展开更多
关键词 图异常检测 图数据挖掘 数据挖掘
下载PDF
面向知识图谱的知识推理研究进展 被引量:171
3
作者 官赛萍 靳小龙 +2 位作者 贾岩涛 王元卓 程学旗 《软件学报》 EI CSCD 北大核心 2018年第10期2966-2994,共29页
近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知... 近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景. 展开更多
关键词 知识推理 知识图谱 规则推理 分布式表示 神经网络
下载PDF
知识图谱可解释推理研究综述 被引量:19
4
作者 侯中妮 靳小龙 +3 位作者 陈剑赟 官赛萍 王元卓 程学旗 《软件学报》 EI CSCD 北大核心 2022年第12期4644-4667,共24页
面向知识图谱的知识推理旨在通过已有的知识图谱事实,去推断新的事实,进而实现知识库的补全.近年来,尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功,但是他们的黑盒属性使得模型无法为预测出的事实做出解释.所以,如何设计... 面向知识图谱的知识推理旨在通过已有的知识图谱事实,去推断新的事实,进而实现知识库的补全.近年来,尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功,但是他们的黑盒属性使得模型无法为预测出的事实做出解释.所以,如何设计用户可理解、可信赖的推理模型成为了人们关注的问题.从可解释性的基本概念出发,系统梳理了面向知识图谱的可解释知识推理的相关工作,具体介绍了事前可解释推理模型和事后可解释推理模型的研究进展;根据可解释范围的大小,将事前可解释推理模型进一步细分为全局可解释的推理和局部可解释的推理;在事后解释模型中,回顾了推理模型的代表方法,并详细介绍提供事后解释的两类解释方法.此外,还总结了可解释知识推理在医疗、金融领域的应用.随后,对可解释知识推理的现状进行概述,最后展望了可解释知识推理的未来发展方向,以期进一步推动可解释推理的发展和应用. 展开更多
关键词 可解释性 知识推理 知识图谱 事后可解释 事前可解释
下载PDF
基于动态异构信息网络的时序关系预测 被引量:8
5
作者 赵泽亚 贾岩涛 +2 位作者 王元卓 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1735-1741,共7页
动态异构信息网络中的时序关系预测问题近些年被广泛研究,时序关系预测旨在预测关系产生时间的同时预测关系的类型.动态异构信息网络是包含不同类型的点和边且边上带有时间信息的网络.现有的方法主要考虑了网络中拓扑结构对于关系预测... 动态异构信息网络中的时序关系预测问题近些年被广泛研究,时序关系预测旨在预测关系产生时间的同时预测关系的类型.动态异构信息网络是包含不同类型的点和边且边上带有时间信息的网络.现有的方法主要考虑了网络中拓扑结构对于关系预测的影响,而并未将时间和结构信息整合到一个统一的模型中进行研究.针对以上问题,提出了一个时间差关系路径法(time-difference-labeled path,TDLP)用于实现时序关系预测,该方法将网络中边上的时间信息融入到结构路径中从而得到更好的预测效果.在一个学术网络上的实验证明,提出的TDLP方法相比当前流行的方法具有更高预测准确率. 展开更多
关键词 时序关系预测 时间差路径 动态异构信息网络 随机游走 拓扑结构
下载PDF
大规模演化知识网络中的关联推理 被引量:6
6
作者 赵泽亚 贾岩涛 +2 位作者 王元卓 靳小龙 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期492-502,共11页
网络大数据时代的到来使得知识网络中时空信息越来越丰富.现有的知识网络描述模型对知识的时空信息刻画不足.研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关联推理的准确率.针对以上问题,首先提出了一种包含时... 网络大数据时代的到来使得知识网络中时空信息越来越丰富.现有的知识网络描述模型对知识的时空信息刻画不足.研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关联推理的准确率.针对以上问题,首先提出了一种包含时空信息的演化知识网络表示模型,然后研究在该网络模型上的关联推理问题,提出了一种基于背包问题的知识间关联推理方法.在多个数据集上的实验证明了所提出的关联推理方法的有效性以及对大规模知识网络的适应性. 展开更多
关键词 关联推理 演化知识网络 背包问题 链接延展模式 知识库
下载PDF
一种社会网络用户身份特征识别方法 被引量:10
7
作者 胡开先 梁英 +2 位作者 许洪波 毕晓迪 左遥 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2630-2644,共15页
社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推... 社会网络是现代信息社会重要的组成部分.社会网络用户身份不透明、不可见的特性带来一系列社会安全问题.提出了一种社会网络身份特征识别方法,分别利用基于位置的社会网络和社交关系进行社会网络用户的身份特征识别,融合2种识别结果推测社会网络用户真实身份.提出了一种基于位置的社会网络用户身份识别方法,通过计算中文分词和二元组分词的基本匹配权重和完全匹配权重得到近似度权重,并用它衡量实体为用户所属实体的可能性;通过实体名称聚合算法,对近似度权重计算结果进行优化.根据好友之间倾向于拥有相似的身份特征和相同的兴趣爱好的观察,提出了一种基于社交关系的多数投票的身份识别方法,对社交关系中的用户身份特征进行统计,推测当前用户的地址信息、实体信息和用户兴趣.基于微博数据,进行了样本数为1 000名用户和10 000名用户的2组实验,涵盖了超过250万条社交关系.实验结果表明,提出的虚实映射方法有很高的准确率和覆盖率,与现有方法相比,该方法着眼于推测个人用户细粒度的身份特征,具有较高的实际应用价值. 展开更多
关键词 身份识别 用户身份特征 基于位置的社会网络 社交关系 去匿名化
下载PDF
关于短文本匹配的泛化性和迁移性的研究分析 被引量:3
8
作者 马新宇 范意兴 +3 位作者 郭嘉丰 张儒清 苏立新 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2022年第1期118-126,共9页
自然语言理解中的许多任务,比如自然语言推断任务、机器问答和复述问题,都可以看作是短文本匹配问题.近年来,大量的数据集和深度学习模型的涌现使得短文本匹配任务取得了长足的进步,然而,很少有工作去分析模型在不同数据集之间的泛化能... 自然语言理解中的许多任务,比如自然语言推断任务、机器问答和复述问题,都可以看作是短文本匹配问题.近年来,大量的数据集和深度学习模型的涌现使得短文本匹配任务取得了长足的进步,然而,很少有工作去分析模型在不同数据集之间的泛化能力,以及如何在新领域中有效地利用现有不同领域中的大量带标注的数据,达到减少新领域的数据标注量和提升性能的目标.为此,重点分析了不同数据集之间的泛化性和迁移性,并且通过可视化的方式展示了影响数据集之间泛化性的因素.具体地,使用深度学习模型ESIM(enhanced sequential inference model)和预训练语言模型BERT(bidirectional encoder representations from transformers)在10个通用的短文本匹配数据集上进行了详尽的实验.通过实验,发现即使是在大规模语料预训练过的BERT,合适的迁移仍能带来性能提升.基于以上的分析,也发现通过在混合数据集预训练过的模型,在新的领域和少量样本情况下,具有较好的泛化能力和迁移能力. 展开更多
关键词 短文本匹配 泛化性 迁移性 少样本 预训练语言模型
下载PDF
基于二级链结构的跨域数据融合溯源框架设计 被引量:3
9
作者 王赛 邱强 +3 位作者 王飞 祝烈煌 冯吕 童丽 《信息安全研究》 2021年第8期728-738,共11页
针对跨域数据融合中数据安全、数据可信和数据溯源问题,提出一种基于二级链结构的跨域数据融合溯源框架,开展面向跨域数据融合的二级链构建、可信接入存储、可信快速溯源等关键技术研究,并基于该框架研制了原型系统,通过设定通用性的三... 针对跨域数据融合中数据安全、数据可信和数据溯源问题,提出一种基于二级链结构的跨域数据融合溯源框架,开展面向跨域数据融合的二级链构建、可信接入存储、可信快速溯源等关键技术研究,并基于该框架研制了原型系统,通过设定通用性的三级分域数据融合场景,验证了该框架的可行性、便捷性和轻量化.为大规模数据融合系统的安全监管和全生命周期溯源提供了新的方法和思路,在政府数据共享、城市数据治理、海洋态势观测等场景下具有广泛的应用价值. 展开更多
关键词 大数据 二级链 跨域 数据融合 数据溯源
下载PDF
因果机器学习的前沿进展综述 被引量:16
10
作者 李家宁 熊睿彬 +3 位作者 兰艳艳 庞亮 郭嘉丰 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期59-84,共26页
机器学习是实现人工智能的重要技术手段之一,在计算机视觉、自然语言处理、搜索引擎与推荐系统等领域有着重要应用.现有的机器学习方法往往注重数据中的相关关系而忽视其中的因果关系,而随着应用需求的提高,其弊端也逐渐开始显现,在可... 机器学习是实现人工智能的重要技术手段之一,在计算机视觉、自然语言处理、搜索引擎与推荐系统等领域有着重要应用.现有的机器学习方法往往注重数据中的相关关系而忽视其中的因果关系,而随着应用需求的提高,其弊端也逐渐开始显现,在可解释性、可迁移性、鲁棒性和公平性等方面面临一系列亟待解决的问题.为了解决这些问题,研究者们开始重新审视因果关系建模的必要性,相关方法也成为近期的研究热点之一.在此对近年来在机器学习领域中应用因果技术和思想解决实际问题的工作进行整理和总结,梳理出这一新兴研究方向的发展脉络.首先对与机器学习紧密相关的因果理论做简要介绍;然后以机器学习中的不同问题需求为划分依据对各工作进行分类介绍,从求解思路和技术手段的视角阐释其区别与联系;最后对因果机器学习的现状进行总结,并对未来发展趋势做出预测和展望. 展开更多
关键词 因果关系 伪相关关系 因果推断 机器学习 深度学习 人工智能
下载PDF
基于森林的实体关系联合抽取模型
11
作者 王炫力 靳小龙 +2 位作者 侯中妮 廖华明 张瑾 《计算机应用》 CSCD 北大核心 2023年第9期2700-2706,共7页
嵌套实体对实体关系联合提取任务提出了挑战。现有的联合抽取模型在处理嵌套实体时存在产生大量负例且复杂度高的问题,此外未考虑嵌套实体对三元组预测的干扰。针对以上问题,提出一种基于森林的实体关系联合抽取方法——EF2LTF(Entity F... 嵌套实体对实体关系联合提取任务提出了挑战。现有的联合抽取模型在处理嵌套实体时存在产生大量负例且复杂度高的问题,此外未考虑嵌套实体对三元组预测的干扰。针对以上问题,提出一种基于森林的实体关系联合抽取方法——EF2LTF(Entity Forest to Layering Triple Forest)。EF2LTF采用了一个两阶段的联合训练框架,首先通过生成实体森林灵活地在嵌套实体内部识别不同的实体;然后结合已识别出的嵌套实体及其层次结构生成分层的三元组森林。在四个标准数据集上的实验结果表明,与基于集合预测网络的SPN(Set Prediction Network)模型、基于跨度的实体关系联合抽取模型SpERT(Span-based Entity and Relation Transformer)和动态图增强信息抽取(DyGIE++)等方法相比,所提方法取得了最优的F1值。说明所提方法既增强了嵌套实体的识别能力,也增强了构建三元组时对嵌套实体的分辨能力,从而提升了实体与关系的联合抽取性能。 展开更多
关键词 实体关系联合抽取 三元组生成 嵌套实体 分层预测 实体森林
下载PDF
一种基于RNN的社交消息爆发预测模型 被引量:11
12
作者 笱程成 秦宇君 +3 位作者 田甜 伍大勇 刘悦 程学旗 《软件学报》 EI CSCD 北大核心 2017年第11期3030-3042,共13页
社交网络中,消息的爆发预测属于社交网络流行动态分析的范畴,是社会计算领域的研究热点之一.通过利用基于深度循环神经网络对社交消息的传播过程进行建模,提出了SMOP(social messages outbreak prediction model based on recurrent neu... 社交网络中,消息的爆发预测属于社交网络流行动态分析的范畴,是社会计算领域的研究热点之一.通过利用基于深度循环神经网络对社交消息的传播过程进行建模,提出了SMOP(social messages outbreak prediction model based on recurrent neural network)模型.与传统的基于机器学习的模型相比,SMOP直接对消息转发的到达过程进行建模,避免了传统方法中繁琐的特征工程;与基于点随机过程的模型相比,SMOP可以自动学习消息传播过程的速率函数,不需要手动定义消息传播速率的特征函数,具有较强的数据场景适应性.另外,SMOP采用了时间向量和用户向量的输入表示方法,将时间的周期性和用户的兴趣偏好建模到传播过程之中,提升了SMOP的预测效果.在Twitter和新浪微博数据集上的实验结果均表明,SMOP具有优良的数据适应能力,可以在消息传播的早期(0.5h),以较高的F1值预测某条社交消息是否爆发,验证了模型的有效性. 展开更多
关键词 循环神经网络 点随机过程 爆发预测 机器学习 社交网络
下载PDF
tsk-shell:一种话题敏感的高影响力传播者发现算法 被引量:2
13
作者 笱程成 杜攀 +2 位作者 贺敏 刘悦 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2017年第2期361-368,共8页
在社交网络中,挖掘高影响力的信息传播者,对微博服务中内容的流行度分析和预测是非常有价值的任务.与众多相关方法相比,k-shell分解(k-core)方法因其简洁高效、平均性能好的特点吸引了越来越多的研究人员的兴趣.但是,目前k-shell方法着... 在社交网络中,挖掘高影响力的信息传播者,对微博服务中内容的流行度分析和预测是非常有价值的任务.与众多相关方法相比,k-shell分解(k-core)方法因其简洁高效、平均性能好的特点吸引了越来越多的研究人员的兴趣.但是,目前k-shell方法着重考虑节点在网络中的位置因素,而忽略了话题在信息传播中的影响.因此,为了利用用户历史数据中蕴含的话题对消息的传播概率进行细粒度的建模,提出了一种话题敏感的k-shell(topic-sensitive k-shell,tsk-shell)分解算法.在真实Twitter数据集上实验表明,在发现top k高影响力传播者任务中,tsk-shell比k-shell的性能平均提高了约40%,证明了tsk-shell算法的有效性. 展开更多
关键词 高影响力传播者 k-shell分解 社交网络 信息扩散 传播概率 微博
下载PDF
基于复合结构的知识库分类体系匹配方法 被引量:1
14
作者 林海伦 贾岩涛 +3 位作者 王元卓 靳小龙 程学旗 王伟平 《计算机研究与发展》 EI CSCD 北大核心 2017年第1期50-62,共13页
近年来,分类体系匹配由于其在知识库构建和融合等方面的广泛应用,已成为国内外工业界和学术界的研究热点.然而,随着网络大数据的不断发展,分类体系变得越来越庞大和复杂,构造一种通用有效的分类体系匹配器以适应大规模、异构分类体系匹... 近年来,分类体系匹配由于其在知识库构建和融合等方面的广泛应用,已成为国内外工业界和学术界的研究热点.然而,随着网络大数据的不断发展,分类体系变得越来越庞大和复杂,构造一种通用有效的分类体系匹配器以适应大规模、异构分类体系匹配的扩展性仍然面临很大的挑战.为此,提出了一种基于复合结构的分类体系匹配方法 BiMWM,该方法利用分类体系中分类的复合结构信息:微观结构和宏观结构,将分类体系匹配问题转化为二部图上的优化问题进行求解.首先,创建赋权的二部图建模分类体系之间候选的匹配类对关系;然后,通过计算二部图上的最大权匹配剪枝选择最优的分类体系的匹配类对.BiMWM方法可以在多项式时间内为2个分类体系产生最优匹配.实验结果表明:与当前先进的基准方法相比,该方法能够有效提升大规模、异构分类体系匹配的性能. 展开更多
关键词 知识库 分类体系匹配 复合结构 二部图 最大权匹配
下载PDF
深度学习检索框架的前沿探索 被引量:4
15
作者 郭嘉丰 范意兴 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1987-1999,共13页
经过几十年的发展,信息检索技术获得了长足的进步和广泛的应用,但当前主流的搜索引擎系统距离真正智能的信息获取系统仍然有较大差距.智能信息获取系统能够对网络大数据的内容进行获取、阅读和理解,对关键语义信息实现存储和检索,并能... 经过几十年的发展,信息检索技术获得了长足的进步和广泛的应用,但当前主流的搜索引擎系统距离真正智能的信息获取系统仍然有较大差距.智能信息获取系统能够对网络大数据的内容进行获取、阅读和理解,对关键语义信息实现存储和检索,并能够依据用户的信息需求进行推理、决策和信息生成.实现这样的系统,迫切需要在检索架构和检索模型上形成根本性的改变和理论突破.近年来,围绕智能信息获取的需求,利用深度学习检索框架展开了系统性研究,在数据表征、数据索引以及检索算法等方向上形成了一系列原创成果,在探索全新的深度学习检索架构上不断迈进. 展开更多
关键词 信息检索 深度学习 数据表征 相关匹配 数据索引
下载PDF
融合上下文信息的篇章级事件时序关系抽取方法 被引量:5
16
作者 王俊 史存会 +3 位作者 张瑾 俞晓明 刘悦 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2021年第11期2475-2484,共10页
事件时序关系抽取是一项重要的自然语言理解任务,可以广泛应用于诸如知识图谱构建、问答系统等任务.已有事件时序关系抽取方法往往将该任务视为句子级事件对的分类问题,而基于有限的局部句子信息导致其抽取的事件时序关系的精度较低,且... 事件时序关系抽取是一项重要的自然语言理解任务,可以广泛应用于诸如知识图谱构建、问答系统等任务.已有事件时序关系抽取方法往往将该任务视为句子级事件对的分类问题,而基于有限的局部句子信息导致其抽取的事件时序关系的精度较低,且无法保证整体时序关系的全局一致性.针对此问题,提出一种融合上下文信息的篇章级事件时序关系抽取方法,使用基于双向长短期记忆(bidirectional long short-term memory,Bi-LSTM)的神经网络模型学习文章中事件对的时序关系表示,再利用自注意力机制融入上下文中其他事件对信息,从而得到更丰富的事件对时序关系表示用于时序关系分类.通过TB-Dense(timebank dense)和MATRES(multi-axis temporal relations for start-points)数据集的实验表明:此方法能够取得比当前主流的句子级方法更佳的抽取效果. 展开更多
关键词 事件时序关系抽取 时序关系分类 事件关系识别 自注意力 双向长短期记忆
下载PDF
舆情场景下基于层次知识的话题推荐方法 被引量:5
17
作者 史存会 胡耀康 +4 位作者 冯彬 张瑾 俞晓明 刘悦 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2021年第8期1811-1819,共9页
随着信息技术的飞速发展,互联网成为了舆情传播的主要载体.各种舆情事件不断涌现,并在网民的参与下广泛传播,由此可能引发强烈的社会反响.因此,如何实现网络舆情事件快速发现与个性化监测需求的精准推送,成为了当前舆情的重点关注内容.... 随着信息技术的飞速发展,互联网成为了舆情传播的主要载体.各种舆情事件不断涌现,并在网民的参与下广泛传播,由此可能引发强烈的社会反响.因此,如何实现网络舆情事件快速发现与个性化监测需求的精准推送,成为了当前舆情的重点关注内容.对于舆情场景下用户交互信息稀疏导致的兴趣难以刻画的问题,提出了一种基于层次知识的话题推荐模型.模型通过引入层次知识来扩充语义增加话题之间的潜在信息关联,分别对层次知识、话题和用户建模得到对应的嵌入向量表示,再结合多层感知机匹配模型预测用户点击率.实验结果表明,该模型在与多个基线算法的对比中,在F1(the balanced F score)和AUC(the area under curve)指标的平均值上分别提升了6.7%和4.9%. 展开更多
关键词 话题推荐 层次知识 舆情场景 推荐系统 知识嵌入
下载PDF
基于相关修正的无偏排序学习方法 被引量:2
18
作者 王奕婷 兰艳艳 +2 位作者 庞亮 郭嘉丰 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2022年第12期2867-2877,共11页
用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无... 用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无法完全消除偏差的问题,提出一种基于相关修正的无偏排序学习方法.首先,利用现有小规模相关标注数据训练排序模型,对候选文档进行较精准的相关得分预测;再基于用户点击和文档相关得分训练点击倾向模型;最后,将得到的模型参数设为对偶去偏初始值并联合训练.该方法不影响模型上线的计算速度,可用于在线学习场景,模拟不同程度偏差噪声并在真实点击场景下进行测试,结果表明该方案能够有效提升现有无偏排序学习方法表现. 展开更多
关键词 无偏排序学习 点击数据 相关修正 偏差去除 逆倾向加权
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部