中文短文本聚合模型研究被引量：11

Research on Aggregation Model for Chinese Short Texts

下载PDF

导出

摘要中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. Aggregation task for Chinese short texts is to associate a pair of similar short texts together. The pair needs to belong to same entity in two data sets. Such study has important theoretical and practical interests for data resource integration across different fields. In this article, an effective aggregation model is devised for Chinese short text. The model is able to decrease the volume of candidate pairs sharply for matching and ensure the matching accuracy via two key steps, namely fast matching and refined matching. Meanwhile, aiming to the deficiency of the traditional similarity algorithms for short text, an improved similarity algorithm, called generalized Jaro-Winkler is proposed. The aggregation experiments performed on different merchant data sets suggest that the new algorithm has the best performance both in matching accuracy and stability compared with those traditional algorithms.

作者刘震陈晶郑建宾华锦芝肖淋峰 LIU Zhen CHEN Jing ZHENG Jian-Bin HUA Jin-Zhi XIAO Lin-Feng(Web Sciences Center, School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 611731, China Institute of Electronic Payment, China Unionpay Limited Liability Company, Shanghai 201201, China Big Data Research Center, University of Electronic Science and Technology of China, Chengdu 611731, China)

机构地区电子科技大学计算机科学与工程学院互联网科学中心电子科技大学大数据研究中心中国银联股份有限公司电子支付研究院

出处《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页 Journal of Software

基金国家自然科学基金(61300018) 中国银联-电子科技大学-金融大数据研究项目~~

关键词中文短文本聚合模型文本相似度广义Jaro—Winkler算法快速匹配精细匹配 Chinese short text aggregation model similarity of text generalized Jaro-Winkler fast matching refined matching

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：614
2庄严,李国良,冯建华.知识库实体对齐技术综述[J].计算机研究与发展,2016,53(1):165-192. 被引量：84
3游彬,严岳松,孙英阁,刘靖.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133. 被引量：15
4姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：71

二级参考文献70

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
3[OL].<http://hadoop.apache.org.>.
4WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
5TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
6Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
7Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
8Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
9DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
10Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.

共引文献776

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3赵悦淑,王军,王蕊,昝红英,张坤丽,穗志方.中文医学知识图谱研究进展[J].中国数字医学,2021,16(6):86-91. 被引量：5
4王婷婷,苗琳,吴钰,刘秀磊.基于表示学习的实体对齐技术研究综述[J].电子测试,2023,37(1):60-68.
5赵晓函,周子力,李天宇,陈丹华,王凯莉.一种基于IC参数的知识图谱嵌入方法[J].中文信息学报,2021,35(10):48-55.
6陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
7梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325.
8张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
9李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
10陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：338

同被引文献65

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
3田生伟,吐尔根.依布拉音,禹龙,买合木提.木合买提,艾山.吾买尔.一种维吾尔语句子相似度算法的研究[J].计算机工程与应用,2009,45(26):144-146. 被引量：10
4董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
5游彬,严岳松,孙英阁,刘靖.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133. 被引量：15
6白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
7邹杜,陈育青,张凌.基于语义匹配的抄袭检测方法(英文)[J].华南理工大学学报（自然科学版）,2013,41(7):131-136. 被引量：3
8姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：71
9朱波,郑虹,孙琳琳.代码抄袭检测中串匹配算法的比较[J].长春工业大学学报,2014,35(6):672-676. 被引量：1
10刘兵,钱红林.装备数据应用基本问题探析[J].装备学院学报,2015,26(1):107-110. 被引量：9

引证文献11

1亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙.基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法[J].计算机应用研究,2019,36(6):1731-1736.
2赵逸凡,郑建立,徐霄玲.基于深度学习的电子病历实体标准化[J].软件导刊,2019,18(8):12-15. 被引量：1
3金鹏,杨菁,王宗伟,刘鲲鹏,卜晓阳,ZHENG Xuan.一种基于最小距离编辑法的模糊地址识别模型[J].电力大数据,2019,22(10):9-15. 被引量：3
4方强强,朱全银,张柯文,冯万利,李翔,王文川,胥心心,王胜标.基于ATT-CNN的化工装备分类算法[J].淮阴工学院学报,2020,29(1):44-48.
5张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7
6田星雨,曾广迅,高云博,叶丽丽,龚光红,李妮.基于语义匹配与组合的模型重用技术研究[J].系统仿真学报,2021,33(12):2901-2910. 被引量：2
7魏自强,班元郎,徐伟,王文玺.短文本聚合在元器件供方匹配中的应用与研究[J].计算机技术与发展,2022,32(7):216-220. 被引量：1
8张亚男,陈卫卫,付印金,徐堃.基于Simhash改进的文本去重算法[J].计算机技术与发展,2022,32(8):26-32. 被引量：2
9刘成勇,项邦豪,张东方,甘浪雄,束亚清,许毅.船舶现场监督业务的知识图谱构建方法[J].大连海事大学学报,2022,48(4):38-47. 被引量：1
10杨杉.基于相似度的装备数据聚合方法[J].空军工程大学学报,2023,24(2):98-103.

二级引证文献17

1宗祥瑞,王洋,金尧,周斌,任新颜,庞玉志.基于FaceNet的无人值守变电站智能监控终端[J].电力大数据,2020,23(7):1-8. 被引量：2
2孙曰君,刘智强,杨志豪,林鸿飞.基于BERT的临床术语标准化[J].中文信息学报,2021,35(4):75-82. 被引量：7
3张晨阳,段国云,文春生.基于Simhash算法的文本查重系统的设计与实现[J].湖南科技学院学报,2021,42(5):51-54. 被引量：2
4彭志斌,何利明,况立群,马忠亮.基于WebGL的火药燃烧虚拟仿真实验系统[J].实验技术与管理,2022,39(4):204-209. 被引量：2
5任杰.基于文本分析的标书综合评估模型[J].计算机系统应用,2022,31(6):149-157. 被引量：1
6张亚男,陈卫卫,付印金,徐堃.基于Simhash改进的文本去重算法[J].计算机技术与发展,2022,32(8):26-32. 被引量：2
7陈寅,马佳斌.基于ERNIE-DPCNN模型的地址清洗匹配方法研究[J].地矿测绘,2022,38(4):7-11.
8余文广,张晨,孙福煜.军用仿真系统建设统筹思路研究[J].军事运筹与评估,2023,38(1):61-66. 被引量：3
9安靖,司光亚,周杰,韩旭.基于知识图谱的仿真想定智能生成方法[J].指挥与控制学报,2023,9(1):103-109.
10徐莉,刘威,常兴治.改进型SimHash算法用于代码数据相似度检测[J].福建电脑,2023,39(6):41-45. 被引量：2

1宋婧.坚定文化自信做好中华文化的对外传播[J].采写编,2017,0(4):6-8.
2王海兵.物联网与大数据的新思考[J].通讯世界,2017,23(19):101-101. 被引量：3
3钱颖.教学中注重对学生进行图示思维能力的培养[J].中学化学教学参考,2017,0(16):16-16. 被引量：1
4缪瑞生,马海群.我国政府开放数据现状问题及对策选择[J].图书馆理论与实践,2017,0(9):16-20. 被引量：9
5QORVO免费工具让RF设计更容易[J].中国电子商情,2017(9):48-48.
6班雪.如何做好项目管理中的招标采购及合同管理[J].企业改革与管理,2017(17):35-35. 被引量：3
7徐佳.扣“情”而入让阅读教学更有味[J].新课程导学（上旬刊）,2017,0(9):57-57.
8陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：69
9黄冠利,吕江毅,张华磊.循环差分-微分模上双变元维数多项式的Gr?bner基算法[J].系统科学与数学,2017,37(7):1722-1728.
10白如江,冷伏海,廖君华.一种基于语义组块特征的改进Cosine文本相似度计算方法[J].数据分析与知识发现,2017,1(6):56-64.

软件学报

2017年第10期

浏览历史

内容加载中请稍等...

中文短文本聚合模型研究被引量：11

参考文献4

二级参考文献70

共引文献776

同被引文献65

引证文献11

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

中文短文本聚合模型研究 被引量：11

参考文献4

二级参考文献70

共引文献776

同被引文献65

引证文献11

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

中文短文本聚合模型研究被引量：11