题名 大数据时代的互联网分析引擎
被引量:5
1
作者
窦志成
文继荣
机构
中国人民大学信息学院大数据管理与分析方法研究北京市重点实验室
出处
《大数据》
2015年第3期36-47,共12页
基金
国家重点基础研究发展计划("973"计划)基金资助项目(No.2014CB340403)
国家自然科学基金资助项目(No.61502501)
+1 种基金
中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)(No.15XNLF03)
国家文化科技提升计划~~
文摘
随着互联网尤其是移动互联网的高速发展,互联网文档的数量、内容的丰富度和复杂度都大大增加,互联网正朝大数据时代迈进,而用户的信息需求也趋于复杂化。除了基本的信息检索需求外,对大量相关文档的深入理解与聚合分析的需求也越来越强烈,而传统的互联网搜索引擎已经无法满足人们对该类信息的需求。针对这一问题,提出"互联网分析引擎"的构想,阐述了其与搜索引擎和OLAP分析系统的区别,介绍了一种互联网分析引擎的架构,并详细讨论了实现该引擎的核心问题。
关键词
互联网大数据
分析引擎
数据感知与采集
Keywords
big Web data,analytical engine,data sensing and gathering
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 基于稳定性分析的非凸损失函数在线点对学习的遗憾界
2
作者
郎璇聪
李春生
刘勇
王梅
机构
东北石油大学计算机与信息技术学院
黑龙江省石油大数据 与智能分析 重点 实验室 (东北石油大学)
中国人民大学高瓴人工智能学院
大数据管理与分析方法研究北京市重点实验室 (中国人民大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第12期2806-2813,共8页
基金
国家自然科学基金项目(51774090,62076234)
黑龙江省博士后科研启动金项目(LBH-Q20080)
+1 种基金
黑龙江省自然科学基金项目(LH2020F003)
黑龙江省高校基本科研业务费项目(KYCXTD201903,YYYZX202105)。
文摘
点对学习(pairwise learning)是指损失函数依赖于2个实例的学习任务.遗憾界对点对学习的泛化分析尤为重要.现有的在线点对学习分析只提供了凸损失函数下的遗憾界.为了弥补非凸损失函数下在线点对学习理论研究的空白,提出了基于稳定性分析的非凸损失函数在线点对学习的遗憾界.首先提出了一个广义的在线点对学习框架,并给出了具有非凸损失函数的在线点对学习的稳定性分析;然后,根据稳定性和遗憾界之间的关系,对非凸损失函数下的遗憾界进行研究;最后证明了当学习者能够获得离线神谕(oracle)时,具有非凸损失函数的广义在线点对学习框架实现了最佳的遗憾界O(T-^(1/2)).
关键词
在线点对学习
非凸
稳定性
遗憾界
离线优化神谕
Keywords
online pairwise learning
non-convex
stability
regret bounds
offline optimization oracle
分类号
TP301.5
[自动化与计算机技术—计算机系统结构]
题名 基于神经正切核的多核学习方法
被引量:3
3
作者
王梅
许传海
刘勇
机构
东北石油大学计算机与信息技术学院
黑龙江省石油大数据 与智能分析 重点 实验室 (东北石油大学)
中国人民大学高瓴人工智能学院
大数据管理与分析方法研究北京市重点实验室 (中国人民大学)
出处
《计算机应用》
CSCD
北大核心
2021年第12期3462-3467,共6页
基金
国家自然科学基金面上项目(51774090,62076234)
黑龙江省博士后科研启动金资助项目(LBH-Q20080)
+1 种基金
黑龙江省自然科学基金资助项目(LH2020F003)
黑龙江省高等教育教学改革重点委托项目(SJGZ20190011)。
文摘
多核学习方法是一类重要的核学习方法,但大多数多核学习方法存在如下问题:多核学习方法中的基核函数大多选择传统的具有浅层结构的核函数,在处理数据规模大且分布不平坦的问题时表示能力较弱;现有的多核学习方法的泛化误差收敛率大多为O(1/√n),收敛速度较慢。为此,提出了一种基于神经正切核(NTK)的多核学习方法。首先,将具有深层次结构的NTK作为多核学习方法的基核函数,从而增强多核学习方法的表示能力。然后,根据主特征值比例度量证明了一种收敛速率可达O(1/n)的泛化误差界;在此基础上,结合核对齐度量设计了一种全新的多核学习算法。最后,在多个数据集上进行了实验,实验结果表明,相比Adaboost和K近邻(KNN)等分类算法,新提出的多核学习算法具有更高的准确率和更好的表示能力,也验证了所提方法的可行性与有效性。
关键词
机器学习
多核学习
神经正切核
核对齐
主特征值比例
Keywords
machine learning
multi-kernel learning
Neural Tangent Kernel(NTK)
kernel-target alignment
principal eigenvalue ratio
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于深度学习的图片中商品参数识别方法
被引量:15
4
作者
丁明宇
牛玉磊
卢志武
文继荣
机构
大数据管理与分析方法研究北京市重点实验室 (中国人民大学信息学院)
出处
《软件学报》
EI
CSCD
北大核心
2018年第4期1039-1048,共10页
基金
国家自然科学基金(61573363)
北京市科委类脑计算专项(Z171100000117009)
+1 种基金
中国人民大学预研委托项目(15XNLQ01)
中国人民大学拔尖创新人才培育资助计划~~
文摘
计算机计算性能的提升使得深度学习成为了可能.作为计算机视觉领域的重要发展方向之一的目标检测也开始结合深度学习方法并广泛应用于各行各业.受限于网络的复杂度和检测算法的设计,目标检测的速度和精度成为一个trade-off.目前电商领域的飞速发展产生了大量包含商品参数的图片,使用传统方法难以有效地提取出图片中的商品参数信息.针对这一问题,提出了一种将深度学习检测算法和传统OCR技术相结合的方法,在保证识别速度的同时大大提升了识别的精度.所研究的问题包括检测模型、针对特定数据训练、图片预处理以及文字识别等.首先比较了现有的目标检测算法,权衡其优缺点,然后使用YOLO模型完成检测任务,并针对YOLO模型中存在的不足进行了一定的改进和优化,得到了一个专用于检测图片中商品参数的目标检测模型,最后使用tesseract完成文字提取任务.在将整个流程结合到一起后,该系统不仅有着较好的识别精度,而且是高效和健壮的.最后讨论了优势和不足之处,并指出了未来工作的方向.
关键词
目标检测
图像切割
光学字符识别
商品参数
深度学习
Keywords
object detection
image segmentation
optical character recognition
product parameters
deep learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多任务学习的位置倾向性得分预测算法
被引量:1
5
作者
曹泽麟
徐君
董振华
文继荣
机构
中国人民大学高瓴人工智能学院
大数据管理与分析方法研究北京市重点实验室 (中国人民大学)
华为技术有限公司诺亚方舟实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第1期85-94,共10页
基金
国家重点研发计划项目(2019YFE0198200)
国家自然科学基金项目(61872338,61832017)
北京高校卓越青年科学家计划项目(BJJWZYJH012019100020098)。
文摘
用户搜索时产生的点击数据分布,在不同的搜索场景下存在较大差异.现有算法如融合上下文的位置模型(contextual position based model,CPBM)往往只通过单个模型预测多种场景下的位置倾向性得分,不可避免地降低了模型在不同场景下的预测准确性,影响去除位置偏置的效果.基于上述问题提出一种基于多任务学习的多门专家混合位置倾向性得分预测模型(multi-gate contextual position based model,MCPBM),在CPBM模型的基础上加入信息筛选结构,解决了多场景数据联合训练时预测准确性不佳的问题.同时,为了缓解不同任务收敛速度不一致的问题,提出了指数加权平均权重动态调整算法,在加速模型训练的同时提升了模型整体预测性能.实验结果表明提出的MCPBM模型在多场景数据联合训练时,预测准确性优于传统的CPBM;在使用MCPBM模型去除位置偏置后,基于生成的无偏数据训练得到的排序模型,在AvgRank排序指标上有1%~5%的提升.
关键词
位置偏置
无偏排序
逆概率加权
多任务学习
倾向性得分预测
Keywords
position bias
unbiased learning-to-rank
inverse probability weighting
multi-task learning
propensity score prediction
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 融合法律文本结构信息的刑事案件判决预测
被引量:1
6
作者
张晗
郑伟昊
窦志成
文继荣
机构
中国人民大学信息学院
大数据管理与分析方法研究北京市重点实验室
中国人民大学高瓴人工智能学院
数据 工程与知识工程教育部重点 实验室
出处
《计算机工程与应用》
CSCD
北大核心
2023年第3期253-263,共11页
基金
国家自然科学基金(61872370,61832017)
北京高校卓越青年科学家计划(BJJWZYJH012019100020098)。
文摘
近年来,法律领域的智能化引起了学界的广泛关注。选取法律领域中十分重要的法律判决预测任务作为研究重点,法律判决预测包含推荐相关法条、定罪和刑期预测等三个子任务。随着深度学习在各个领域的广泛应用,一些研究者将深度学习方法引入法律判决预测任务并取得了较好的效果。现有基于深度学习的法律判决预测方法通常是通过构建案情描述和法条之间的注意力来提升模型预测能力,或者利用三个法律判决预测子任务间的关系来提升整体的性能。但是这些工作未考虑法律文本中的多层层次化信息,如刑法第三百九十七条包含职务侵占罪和玩忽职守罪,其法条大类是渎职罪,并且每个罪行有不同的刑期。针对该问题,考虑引入法律文本的多层层次化信息用于法律判决预测任务。具体来说,对法律文本的多层结构信息进行预处理,并利用协同注意力机制将法条的多层信息融入到案情描述中,得到每个子任务的融合不同层次的法律信息的案情描述表示,从而提升司法判决预测任务的性能。在真实的法律判决预测任务公开的数据集上进行了实验,结果显示提出的融合法律文本多层结构信息的模型在法律判决预测任务上优于当前最好的模型。对法律智能化的未来和发展进行了展望。
关键词
法律判决预测
法律多层结构信息
深度学习
Keywords
legal judgement prediction
multi-layer structure information of law
deep learning
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 神经正切核K-Means聚类
被引量:1
7
作者
王梅
宋晓晖
刘勇
许传海
机构
东北石油大学计算机与信息技术学院
黑龙江省石油大数据 与智能分析 重点 实验室 (东北石油大学)
中国人民大学高瓴人工智能学院
大数据管理与分析方法研究北京市重点实验室 (中国人民大学)
出处
《计算机应用》
CSCD
北大核心
2022年第11期3330-3336,共7页
基金
国家自然科学基金资助项目(51774090,62076234)
黑龙江省博士后科研启动金资助项目(LBH‑Q20080)
+1 种基金
黑龙江省自然科学基金资助项目(LH2020F003)
黑龙江省高等教育教学改革重点委托项目(SJGZ20190011)。
文摘
针对K‑Means聚类算法利用均值更新聚类中心,导致聚类结果受样本分布影响的问题,提出了神经正切核K‑Means聚类算法(NTKKM)。首先通过神经正切核(NTK)将输入空间的数据映射到高维特征空间,然后在高维特征空间中进行K‑Means聚类,并采用兼顾簇间与簇内距离的方法更新聚类中心,最后得到聚类结果。在car和breast‑tissue数据集上,对NTKKM聚类算法的准确率、调整兰德系数(ARI)及FM指数这3个评价指标进行统计。实验结果表明,NTKKM聚类算法的聚类效果以及稳定性均优于K‑Means聚类算法和高斯核K‑Means聚类算法。NTKKM聚类算法与传统的K‑Means聚类算法相比,准确率分别提升了14.9%和9.4%,ARI分别提升了9.7%和18.0%,FM指数分别提升了12.0%和12.0%,验证了NTKKM聚类算法良好的聚类性能。
关键词
神经正切核
K‑Means
核聚类
特征空间
核函数
Keywords
Neural Tangent Kernel(NTK)
K‑Means
kernel clustering
feature space
kernel function
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于迭代回归树模型的跨平台长尾商品购买行为预测
被引量:3
8
作者
白婷
文继荣
赵鑫
杨伯华
机构
中国人民大学信息学院
大数据管理与分析方法研究北京市重点实验室
出处
《中文信息学报》
CSCD
北大核心
2017年第5期185-193,共9页
基金
国家自然科学基金青年科学基金(61502502)
国家重点基础研究发展计划(2014CB340403)
+1 种基金
北京市自然科学基金(4162032)
中国人民大学2016年度拔尖创新人才培育资助计划
文摘
长尾商品是指单种商品销量较低,但是由于种类繁多,形成的累计销售总量较大,能够增加企业盈利空间的商品。在电子商务网站中,用户信息量较少且购买长尾商品数量较少、数据稀疏,因此对用户购买长尾商品的行为预测具有一定的挑战性。该文提出预测用户购买长尾商品的比例,研究单一用户购买长尾商品的整体偏好程度。利用社交媒体网站上海量的文本信息和丰富的用户个人信息,提取用户的个人属性、文本语义、关注关系、活跃时间等多个种类的特征;采用改进的迭代回归树模型MART(Multiple Additive Regression Tree),对用户购买长尾商品的行为进行预测分析;分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站,使用真实数据构建回归预测实验,得到了一些有意义的发现。该文从社交媒体网站抽取用户特征,对于预测用户购买长尾商品的行为给出一个新颖的思路,可以更好地理解用户个性化需求,挖掘长尾市场潜在的经济价值,改进电子商务网站的服务。
关键词
长尾商品
电子商务
社交媒体
购买行为预测
Keywords
long-tail products
e-commerce shopping
social media
purchase prediction
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 微博热门话题关联商品品类挖掘
被引量:2
9
作者
左笑晨
窦志成
黄真
卢淑祺
文继荣
机构
中国人民大学信息学院
大数据管理与分析方法研究北京市重点实验室 (中国人民大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第9期1927-1938,共12页
基金
国家重点研发计划项目(2018YFC0830703)
国家自然科学基金项目(61872370)
中央高校基本科研业务费专项资金(2112018391)~~
文摘
微博是目前人们广泛使用的在线分享和交流的社交媒体平台之一.某些被广泛关注的话题因为在微博中被大量网友转发、评论和搜索而形成微博热门话题,而这些热门话题的广泛传播则可能进一步刺激和推动用户的线下行为.作为其中的典型代表,某些微博热门话题可能会刺激电商平台中和该话题相关的商品的热销.提前挖掘出与微博热门话题相关联的商品品类,可帮助电商平台和卖家提前做好商品运维以及库存的调配,提高用户搜索的购物转化率,带来相应商品销量的提升.提出了一种微博热门话题所关联的潜在购物品类的挖掘方法.首先构建商品知识图谱,然后采用多种深度网络模型对商品品类的关联知识图谱信息与微博话题内容进行文本匹配,识别出每个热门话题和商品品类的关联强度.实验表明,该方法能够有效识别出热门话题和购物品类的关联关系,大部分的微博热门话题都可以关联到电商平台中至少一个商品品类.
关键词
知识图谱
文本匹配
微博热点
实体识别
深度学习
Keywords
knowledge graph
textual match
Weibo hotspot
entity recognition
deep learning
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 论子话题粒度对搜索结果多样化算法的影响
被引量:1
10
作者
胡莎
窦志成
文继荣
机构
西南大学计算机与信息科学学院
中国人民大学信息学院
大数据管理与分析方法研究北京市重点实验室
出处
《中文信息学报》
CSCD
北大核心
2017年第4期165-173,共9页
基金
国家重点基础研究发展计划/973计划(2014CB340403)
国家自然科学基金(61502501)
文摘
随着生活节奏的加快,用户习惯将简短的查询提交给搜索引擎,并希望搜索引擎能体贴地将自己需要的结果返回在靠前的结果中。面对大量有歧义的或者意义广泛的查询,搜索引擎努力地识别用户意图,并试图用有限的结果取悦更多的用户。为了解决这个问题,搜索结果多样化技术应运而生,其任务是是对搜索结果进行重排序,在有限的搜索结果中满足尽可能多的用户意图。该文重点关注多样化算法中子话题的粒度问题。利用传统方法生成了不同粒度的子话题,并比较了使用不同粒度的子话题对搜索结果多样化算法的影响。实验结果表明,经典多样化算法使用细粒度的子话题时表现更好。
关键词
搜索结果多样化
查询意图
子话题
Keywords
search result diversification
query intents
subtopics
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 模仿排序学习模型
11
作者
曾玮
俞蔚捷
徐君
兰艳艳
程学旗
机构
中国科学院计算技术研究 所网络数据 科学与技术重点 实验室
中国科学院大学
中国人民大学高瓴人工智能学院大数据管理与分析方法研究北京市重点实验室
出处
《中文信息学报》
CSCD
北大核心
2020年第1期97-105,共9页
基金
国家自然科学基金(61872338,61832017,61773362,61425016,61472401,61722211,61906180)
北京高校卓越青年科学家计划项目(BJJWZYJH012019100020098)
+3 种基金
北京智源人工智能研究院(BAAI2019ZD0305)
中国人民大学科学研究基金(2018030246)
中国科学院青年创新促进会优秀会员项目(20144310,2016102)
国家重点研发项目(2016QY02D0405)。
文摘
文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于"试错"的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。
关键词
排序
模仿学习
强化学习
Keywords
learning to rank
imitation learning
reinforcement learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]