题名 基于稳定性分析的非凸损失函数在线点对学习的遗憾界
1
作者
郎璇聪
李春生
刘勇
王梅
机构
东北石油大学 计算机与信息技术学院
黑龙江省石油大数据 与智能分析 重点 实验室 (东北石油大学 )
中国人民大学 高瓴人工智能学院
大数据 管理 与分析方法 研究 北京市 重点 实验室 (中国人民大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第12期2806-2813,共8页
基金
国家自然科学基金项目(51774090,62076234)
黑龙江省博士后科研启动金项目(LBH-Q20080)
+1 种基金
黑龙江省自然科学基金项目(LH2020F003)
黑龙江省高校基本科研业务费项目(KYCXTD201903,YYYZX202105)。
文摘
点对学习(pairwise learning)是指损失函数依赖于2个实例的学习任务.遗憾界对点对学习的泛化分析尤为重要.现有的在线点对学习分析只提供了凸损失函数下的遗憾界.为了弥补非凸损失函数下在线点对学习理论研究的空白,提出了基于稳定性分析的非凸损失函数在线点对学习的遗憾界.首先提出了一个广义的在线点对学习框架,并给出了具有非凸损失函数的在线点对学习的稳定性分析;然后,根据稳定性和遗憾界之间的关系,对非凸损失函数下的遗憾界进行研究;最后证明了当学习者能够获得离线神谕(oracle)时,具有非凸损失函数的广义在线点对学习框架实现了最佳的遗憾界O(T-^(1/2)).
关键词
在线点对学习
非凸
稳定性
遗憾界
离线优化神谕
Keywords
online pairwise learning
non-convex
stability
regret bounds
offline optimization oracle
分类号
TP301.5
[自动化与计算机技术—计算机系统结构]
题名 基于神经正切核的多核学习方法
被引量:3
2
作者
王梅
许传海
刘勇
机构
东北石油大学 计算机与信息技术学院
黑龙江省石油大数据 与智能分析 重点 实验室 (东北石油大学 )
中国人民大学 高瓴人工智能学院
大数据 管理 与分析方法 研究 北京市 重点 实验室 (中国人民大学 )
出处
《计算机应用》
CSCD
北大核心
2021年第12期3462-3467,共6页
基金
国家自然科学基金面上项目(51774090,62076234)
黑龙江省博士后科研启动金资助项目(LBH-Q20080)
+1 种基金
黑龙江省自然科学基金资助项目(LH2020F003)
黑龙江省高等教育教学改革重点委托项目(SJGZ20190011)。
文摘
多核学习方法是一类重要的核学习方法,但大多数多核学习方法存在如下问题:多核学习方法中的基核函数大多选择传统的具有浅层结构的核函数,在处理数据规模大且分布不平坦的问题时表示能力较弱;现有的多核学习方法的泛化误差收敛率大多为O(1/√n),收敛速度较慢。为此,提出了一种基于神经正切核(NTK)的多核学习方法。首先,将具有深层次结构的NTK作为多核学习方法的基核函数,从而增强多核学习方法的表示能力。然后,根据主特征值比例度量证明了一种收敛速率可达O(1/n)的泛化误差界;在此基础上,结合核对齐度量设计了一种全新的多核学习算法。最后,在多个数据集上进行了实验,实验结果表明,相比Adaboost和K近邻(KNN)等分类算法,新提出的多核学习算法具有更高的准确率和更好的表示能力,也验证了所提方法的可行性与有效性。
关键词
机器学习
多核学习
神经正切核
核对齐
主特征值比例
Keywords
machine learning
multi-kernel learning
Neural Tangent Kernel(NTK)
kernel-target alignment
principal eigenvalue ratio
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于深度学习的图片中商品参数识别方法
被引量:15
3
作者
丁明宇
牛玉磊
卢志武
文继荣
机构
大数据 管理 与分析方法 研究 北京市 重点 实验室 (中国人民大学 信息学院)
出处
《软件学报》
EI
CSCD
北大核心
2018年第4期1039-1048,共10页
基金
国家自然科学基金(61573363)
北京市科委类脑计算专项(Z171100000117009)
+1 种基金
中国人民大学预研委托项目(15XNLQ01)
中国人民大学拔尖创新人才培育资助计划~~
文摘
计算机计算性能的提升使得深度学习成为了可能.作为计算机视觉领域的重要发展方向之一的目标检测也开始结合深度学习方法并广泛应用于各行各业.受限于网络的复杂度和检测算法的设计,目标检测的速度和精度成为一个trade-off.目前电商领域的飞速发展产生了大量包含商品参数的图片,使用传统方法难以有效地提取出图片中的商品参数信息.针对这一问题,提出了一种将深度学习检测算法和传统OCR技术相结合的方法,在保证识别速度的同时大大提升了识别的精度.所研究的问题包括检测模型、针对特定数据训练、图片预处理以及文字识别等.首先比较了现有的目标检测算法,权衡其优缺点,然后使用YOLO模型完成检测任务,并针对YOLO模型中存在的不足进行了一定的改进和优化,得到了一个专用于检测图片中商品参数的目标检测模型,最后使用tesseract完成文字提取任务.在将整个流程结合到一起后,该系统不仅有着较好的识别精度,而且是高效和健壮的.最后讨论了优势和不足之处,并指出了未来工作的方向.
关键词
目标检测
图像切割
光学字符识别
商品参数
深度学习
Keywords
object detection
image segmentation
optical character recognition
product parameters
deep learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多任务学习的位置倾向性得分预测算法
被引量:1
4
作者
曹泽麟
徐君
董振华
文继荣
机构
中国人民大学 高瓴人工智能学院
大数据 管理 与分析方法 研究 北京市 重点 实验室 (中国人民大学 )
华为技术有限公司诺亚方舟实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第1期85-94,共10页
基金
国家重点研发计划项目(2019YFE0198200)
国家自然科学基金项目(61872338,61832017)
北京高校卓越青年科学家计划项目(BJJWZYJH012019100020098)。
文摘
用户搜索时产生的点击数据分布,在不同的搜索场景下存在较大差异.现有算法如融合上下文的位置模型(contextual position based model,CPBM)往往只通过单个模型预测多种场景下的位置倾向性得分,不可避免地降低了模型在不同场景下的预测准确性,影响去除位置偏置的效果.基于上述问题提出一种基于多任务学习的多门专家混合位置倾向性得分预测模型(multi-gate contextual position based model,MCPBM),在CPBM模型的基础上加入信息筛选结构,解决了多场景数据联合训练时预测准确性不佳的问题.同时,为了缓解不同任务收敛速度不一致的问题,提出了指数加权平均权重动态调整算法,在加速模型训练的同时提升了模型整体预测性能.实验结果表明提出的MCPBM模型在多场景数据联合训练时,预测准确性优于传统的CPBM;在使用MCPBM模型去除位置偏置后,基于生成的无偏数据训练得到的排序模型,在AvgRank排序指标上有1%~5%的提升.
关键词
位置偏置
无偏排序
逆概率加权
多任务学习
倾向性得分预测
Keywords
position bias
unbiased learning-to-rank
inverse probability weighting
multi-task learning
propensity score prediction
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 神经正切核K-Means聚类
被引量:1
5
作者
王梅
宋晓晖
刘勇
许传海
机构
东北石油大学 计算机与信息技术学院
黑龙江省石油大数据 与智能分析 重点 实验室 (东北石油大学 )
中国人民大学 高瓴人工智能学院
大数据 管理 与分析方法 研究 北京市 重点 实验室 (中国人民大学 )
出处
《计算机应用》
CSCD
北大核心
2022年第11期3330-3336,共7页
基金
国家自然科学基金资助项目(51774090,62076234)
黑龙江省博士后科研启动金资助项目(LBH‑Q20080)
+1 种基金
黑龙江省自然科学基金资助项目(LH2020F003)
黑龙江省高等教育教学改革重点委托项目(SJGZ20190011)。
文摘
针对K‑Means聚类算法利用均值更新聚类中心,导致聚类结果受样本分布影响的问题,提出了神经正切核K‑Means聚类算法(NTKKM)。首先通过神经正切核(NTK)将输入空间的数据映射到高维特征空间,然后在高维特征空间中进行K‑Means聚类,并采用兼顾簇间与簇内距离的方法更新聚类中心,最后得到聚类结果。在car和breast‑tissue数据集上,对NTKKM聚类算法的准确率、调整兰德系数(ARI)及FM指数这3个评价指标进行统计。实验结果表明,NTKKM聚类算法的聚类效果以及稳定性均优于K‑Means聚类算法和高斯核K‑Means聚类算法。NTKKM聚类算法与传统的K‑Means聚类算法相比,准确率分别提升了14.9%和9.4%,ARI分别提升了9.7%和18.0%,FM指数分别提升了12.0%和12.0%,验证了NTKKM聚类算法良好的聚类性能。
关键词
神经正切核
K‑Means
核聚类
特征空间
核函数
Keywords
Neural Tangent Kernel(NTK)
K‑Means
kernel clustering
feature space
kernel function
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 微博热门话题关联商品品类挖掘
被引量:2
6
作者
左笑晨
窦志成
黄真
卢淑祺
文继荣
机构
中国人民大学 信息学院
大数据 管理 与分析方法 研究 北京市 重点 实验室 (中国人民大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第9期1927-1938,共12页
基金
国家重点研发计划项目(2018YFC0830703)
国家自然科学基金项目(61872370)
中央高校基本科研业务费专项资金(2112018391)~~
文摘
微博是目前人们广泛使用的在线分享和交流的社交媒体平台之一.某些被广泛关注的话题因为在微博中被大量网友转发、评论和搜索而形成微博热门话题,而这些热门话题的广泛传播则可能进一步刺激和推动用户的线下行为.作为其中的典型代表,某些微博热门话题可能会刺激电商平台中和该话题相关的商品的热销.提前挖掘出与微博热门话题相关联的商品品类,可帮助电商平台和卖家提前做好商品运维以及库存的调配,提高用户搜索的购物转化率,带来相应商品销量的提升.提出了一种微博热门话题所关联的潜在购物品类的挖掘方法.首先构建商品知识图谱,然后采用多种深度网络模型对商品品类的关联知识图谱信息与微博话题内容进行文本匹配,识别出每个热门话题和商品品类的关联强度.实验表明,该方法能够有效识别出热门话题和购物品类的关联关系,大部分的微博热门话题都可以关联到电商平台中至少一个商品品类.
关键词
知识图谱
文本匹配
微博热点
实体识别
深度学习
Keywords
knowledge graph
textual match
Weibo hotspot
entity recognition
deep learning
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]