-
题名基于异质信息网的短文本特征扩充方法
- 1
-
-
作者
吕晓锋
赵书良
高恒达
武永亮
张宝奇
-
机构
河北师范大学计算机与网络空间安全学院
供应链大数据分析与数据安全河北省工程研究中心
河北省网络与信息安全重点实验室
河北师范大学软件学院
石家庄铁道大学信息科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2022年第9期92-100,共9页
-
基金
国家社会科学基金重大项目(13&ZD091,18ZDA200)
河北省重点研发计划项目(20370301D)
河北师范大学重大关键技术攻关项目(L2020K01)。
-
文摘
随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。
-
关键词
异质信息网络
短文本扩充方法
短文本匹配
知识库
元路径
-
Keywords
Heterogeneous information network
Short text enrichment method
Short text matching
Knowledge base
Meta-path
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于概率主题模型的物联网服务发现
被引量:21
- 2
-
-
作者
魏强
金芝
许焱
-
机构
中国科学院数学与系统科学研究院
中国科学院大学
高可信软件技术教育部重点实验室(北京大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2014年第8期1640-1658,共19页
-
基金
国家自然科学基金(61232015
91318301)
-
文摘
针对物联网中服务数量的大规模性、服务描述的异构性以及设备服务的资源高度受限性和移动性等特点,提出了一种基于概率主题模型的物联网服务发现方法.该方法的主要特点是:1)利用英文Wikipedia构建高质量的主题模型,并对类似短文本的服务文本描述进行语义扩充,使主题模型能够更有效地估计服务文本描述的隐含主题;2)提出利用非参数主题模型学习服务文本的隐含主题,降低模型训练时间;3)利用服务隐含主题对服务进行自动分类和文本相似度计算,快速减少服务匹配数量,加速服务文本相似度计算;4)提出能够同时支持WSDL-based和RESTful两种物联网服务的signature匹配算法.实验结果表明:与现有的物联网服务发现方法相比,该方法的准确率(precision)和归一化折损累积增益(NDCG)都有较大幅度的提高.
-
关键词
物联网
服务发现
主题建模
短文本扩充
-
Keywords
Internet of things
service discovery
topic modeling
short text enrichment
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-