-
题名融合维基知识的变分半监督百度百科分类
- 1
-
-
作者
韩佩甫
余正涛
郭军军
高盛祥
赖华
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《计算机应用与软件》
北大核心
2024年第7期128-135,144,共9页
-
基金
国家自然科学基金项目(61972186,61762056,61472168)
云南省重大科技专项计划项目(202002AD080001)
+1 种基金
云南省高新技术产业专项(201606)
云南省应用基础研究计划重点项目(2019FA023)。
-
文摘
跨语言知识图谱构架多利用维基百科,但其中文实体较少,构建大规模以中文为核心的跨语言知识图谱比较困难。如何利用百度百科等现有的大规模中文百科知识库来辅助构建跨语言知识图谱是亟待解决的问题,然而维基百科和百度百科属于不同的分类体系,增加了跨百科检索的范围和难度。基于此,提出一种融合少量带分类标签的维基知识指导下的半监督百度百科分类方法。基于词嵌入和词袋模型分别获得百科摘要文本的语义特征和统计特征;融合两者作为变分自编码模型的输入,获得其语义表征;利用少量维基百科分类损失和海量无标签百度百科重构损失,构造半监督分类损失,实现分类体系统一。实验结果表明,所提方法能够准确实现百度百科到维基百科分类体系的迁移。
-
关键词
分类体系
文本分类
半监督
词袋模型
变分自编码
-
Keywords
Classification system
Text classification
Semi supervision
Bag of words
Variational autoencoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-