-
题名ACRank:在神经排序模型中引入检索公理知识
- 1
-
-
作者
薄琳
庞亮
张朝亮
王钊伟
董振华
徐君
文继荣
-
机构
中国人民大学信息学院
中国科学院计算技术研究所
华为技术有限公司诺亚方舟实验室
中国人民大学高瓴人工智能学院
新一代智能搜索与推荐教育部工程研究中心
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第10期2117-2131,共15页
-
基金
国家重点研发计划项目(2019YFE0198200)
国家自然科学基金项目(62276248)
+1 种基金
北京高校卓越青年科学家计划项目(BJJWZYJH012019100020098)
中国人民大学“双一流”跨学科重大创新规划平台“智能社会治理跨学科交叉平台”的支持.
-
文摘
传统的信息检索(Information Retrieval,IR)是知识驱动的方法,如以BM25、LMIR等为代表的检索模型在设计过程中考虑词频、逆文档频率、文档长度等关键因素计算查询-文档的相关性得分.这些关键因素被总结为IR公理,在传统模型的设计和评价中起到了至关重要的作用.如词频规则认为有更多查询词的文档更相关.与之相对,数据驱动的神经排序模型基于大量的标注数据与精巧的神经网络结构自动学习相关性评分函数,带来了显著的排序精度提升.传统IR公理知识是否能用来提升神经排序模型的效果是一个值得研究的重要问题且已有学者进行了初步探索,其首先通过公理指导增强数据生成,然后利用生成的标注数据直接训练神经网络.但IR公理的形式是通过比较匹配信号的强弱给出两个文档间相对的相关关系,而非直接给出文档的相关度标签.针对这一问题,本文提出了一种通过对比学习将IR公理知识引入神经排序模型的框架,称为ACRank.ACRank利用信息检索公理生成增强数据,抽取不同文档的匹配信号,利用对比学习拉开匹配信号间差距,使正样本匹配信号强于负样本,通过上述方式,ACRank将IR公理知识自然地融入到数据驱动的神经排序模型中.ACRank作为通用框架,可应用于不同规则,本文选择词频规则进行实验,基于大规模公开数据集上的实验结果表明,ACRank能够有效提升已有神经检索模型如BERT的排序精度,相关分析实验验证了该框架的有效性.
-
关键词
神经检索模型
信息检索公理
对比学习
知识驱动
数据驱动
-
Keywords
neural ranking model
information retrieval axiom
contrastive learning
knowledge driven
data driven
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于样本加权的引文网络的社团划分
被引量:5
- 2
-
-
作者
肖雪
王钊伟
陈云伟
邓勇
-
机构
中国科学院大学
中国科学院成都文献情报中心
中国科学院计算技术研究所
-
出处
《图书情报工作》
CSSCI
北大核心
2016年第20期86-93,共8页
-
基金
国家高技术研究发展计划(“863”计划)“微生物数字资源知识管理系统构建及关键技术研究”(项目编号:2014AA021503)
中国科学院2013年度“西部之光”人才培养计划“引文耦合网络演化分析及在科技评价与预测中的应用研究”(项目编号:科发人字〔2013〕165号(3-6))研究成果之一
-
文摘
[目的 /意义]为提高引文网络的社团划分的准确性,提出一种基于加权的引文网络的社团划分方法。[方法/过程]以Louvain社团划分方法为算法基础,将科学论文用向量空间模型表示,利用改进的余弦相似度方法计算相邻论文之间的相似度,并将其作为权重,综合考虑论文内容属性与结构属性,提出一种基于样本加权的引文网络社团划分方法。[结果 /结论]该算法将引文网络中论文的文本内容属性与拓扑结构属性结合起来,通过对Scientometrics期刊发表的论文以及主题为CRISPR的论文进行社团划分研究实验,结果表明该方法能改善引文网络社团的划分效果。
-
关键词
引文网络
社团划分
聚类
文本挖掘
-
Keywords
citation network
community discovery
clustering
text mining
-
分类号
G353.1
[文化科学—情报学]
-