-
题名中文短文本聚合模型研究
被引量:11
- 1
-
-
作者
刘震
陈晶
郑建宾
华锦芝
肖淋峰
-
机构
电子科技大学计算机科学与工程学院互联网科学中心
电子科技大学大数据研究中心
中国银联股份有限公司电子支付研究院
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第10期2674-2692,共19页
-
基金
国家自然科学基金(61300018)
中国银联-电子科技大学-金融大数据研究项目~~
-
文摘
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能.
-
关键词
中文短文本
聚合模型
文本相似度
广义Jaro—Winkler算法
快速匹配
精细匹配
-
Keywords
Chinese short text
aggregation model
similarity of text
generalized Jaro-Winkler
fast matching
refined matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-