-
题名基于异质信息网的短文本特征扩充方法
被引量:1
- 1
-
-
作者
吕晓锋
赵书良
高恒达
武永亮
张宝奇
-
机构
河北师范大学计算机与网络空间安全学院
供应链大数据分析与数据安全河北省工程研究中心
河北省网络与信息安全重点实验室
河北师范大学软件学院
石家庄铁道大学信息科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2022年第9期92-100,共9页
-
基金
国家社会科学基金重大项目(13&ZD091,18ZDA200)
河北省重点研发计划项目(20370301D)
河北师范大学重大关键技术攻关项目(L2020K01)。
-
文摘
随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。
-
关键词
异质信息网络
短文本扩充方法
短文本匹配
知识库
元路径
-
Keywords
Heterogeneous information network
Short text enrichment method
Short text matching
Knowledge base
Meta-path
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-