基于语义的短文本消重算法研究被引量：2

Research on Short-Text Duplication Detection Method Based on Semantics

下载PDF

导出

摘要传统的文本消重技术局限于消除字面完全相同或者高度相似的信息,无法满足特定领域,比如新闻消重的要求。为了去除"话题重复"的新闻报导,提出一种两层短文本消重技术,在字面消重层的基础上,添加语义消重层,结合多个词向量空间模型捕获文本语义特征,试图检测属于同一话题的重复新闻。实验表明,本算法较单纯的基于字面的文本消重算法,在保证不降低检测准确率的条件下,能较大提高检测召回率。其应用于"科技视界"新闻服务系统中,取得良好效果。 The traditional text deduplication limits to the literally identical or similar deduplication,which is not sufficient to some situa- tions such as news deduplication. To remove the ＂topic -duplicate＂ news reports, a two -layer short text deduplication algorithm is proposed, which adds a semantics - duplicate layer based on the syntax - duplicate layer, combines with multiple word vector models to capture text semantic features, attempts to detect duplicate news of the same topic. Experiments shows that our algorithm improves much in the detection recall compared to traditional algorithm under the condition of keeping the high precise. Our algorithm is applied to the ＂View of Technology＂ news system and works well.

作者蒋旦张翔 JIANG Dan ZHANG Xiang(School of Information Science and Technology, University of Science and Technology of China, Hefei, 230027 ,Chin)

机构地区中国科学技术大学信息科学技术学院

出处《网络新媒体技术》 2017年第1期45-51,共7页 Network New Media Technology

基金中国科学院先导课题"海量网络数据流海云协同实时处理系统"(编号:XDA060112030)

关键词文本消重倒排索引语义相似度词向量 text deduplication, inverted index, semantic similarity, word vector

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘萍,陈烨.词汇相似度研究进展综述[J].现代图书情报技术,2012(7):82-89. 被引量：16

二级参考文献50

1荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
2秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
3董振东董强.知网[EB／OL].http://www.keenage.com,2002.
4刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
5Levenshetin V I. Binary Codes Capable of Correcting Deletions, Insertions, and Reversals [ J ]. Soviet Physics Doklady, 1966, 10 (8) :707 -710.
6Wagner R A, Fischer M J. The String - to - String Correction Prob- lem[J]. Journal of the ACM(JACM), 1974, 21 ( 1 ) :168 - 173.
7Cilibrasi R L, Vit6nyi P M B. Clustering by Compression [ J ]. IEEE Transaction on Information Theory, 2005, 51 (4) :1523 - 1545.
8Cilibrasi R L, Vitdnyi P M B. The Google Similarity Distance[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (3) :370 -383.
9Bollegala D, Matsuo Y, Ishizuka M. Measuring Semantic Similarity Between Words Using Web Search Engines [ C ]. In : Proceedings of the 16th International Conference on World Wide Web( WWW' 07 ). New York : ACM, 2007:757 - 766.
10Sahami M, Heilman T. A Web - based Kernel Function for Matc- hing Short Text Snippets [ C ]. In : Proceedings of the 15th Interna- tional Conference on World Wide Web ( WWW' 06 ), Edinburgh. 20O6.

共引文献15

1滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
2李慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177. 被引量：17
3蒋旦,周文乐,朱明.基于语义和图的文本聚类算法研究[J].中文信息学报,2016,30(5):121-128. 被引量：2
4单连慧,赵迎光,钱庆.基于词汇相似度的医学分类体系映射研究与实现[J].医学信息学杂志,2016,37(11):46-50. 被引量：2
5陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77
6陈果,吴微,肖璐.知识共聚:领域分析视角下的知识聚合模式[J].图书情报工作,2018,62(8):115-122. 被引量：8
7鞠秀芳.基于文本相似度分析的期刊引文有效性识别研究[J].现代情报,2018,38(11):14-17. 被引量：3
8田大芳,张瑞丽,魏瑞斌.基于关键词的期刊发文的相似性测度研究[J].现代情报,2018,38(11):105-108. 被引量：8
9胡晓榕,尤翔.基于相似度的英语检索系统设计[J].自动化技术与应用,2019,38(9):174-177.
10张晓宇,王永滨,吴林.基于文本加权词共现的跨语言文本相似度分析[J].软件导刊,2020,19(2):92-95. 被引量：2

同被引文献12

1梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
2赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：106
3刘宗田,黄美丽,周文,仲兆满,付剑锋,单建芳,智慧来.面向事件的本体研究[J].计算机科学,2009,36(11):189-192. 被引量：100
4何蒲,于戈,张岩峰,鲍玉斌.区块链技术与应用前瞻综述[J].计算机科学,2017,44(4):1-7. 被引量：483
5郝怡然,盛益强,王劲林,李超鹏.基于递归神经网络的网络安全事件预测[J].网络新媒体技术,2017,6(5):54-58. 被引量：12
6王海龙,田有亮,尹鑫.基于区块链的大数据确权方案[J].计算机科学,2018,45(2):15-19. 被引量：53
7邵奇峰,金澈清,张召,钱卫宁,周傲英.区块链技术:架构及进展[J].计算机学报,2018,41(5):969-988. 被引量：772
8贺海武,延安,陈泽华.基于区块链的智能合约技术与应用综述[J].计算机研究与发展,2018,55(11):2452-2466. 被引量：257
9夏琦,高建彬,夏虎,周涛,张小松.区块链数据主权技术与应用[J].电子科技大学学报（社科版）,2020,22(1):5-11. 被引量：11
10王群,李馥娟,王振力,梁广俊,徐杰.区块链原理及关键技术[J].计算机科学与探索,2020,14(10):1621-1643. 被引量：62

引证文献2

1韦向峰,缪建明,池哲洁,袁毅.基于概念层次网络的事件抽取研究[J].网络新媒体技术,2020,9(4):16-21.
2刘静静,邓浩江,李杨.一种隐私保护的文本数据确权方法[J].电子设计工程,2023,31(9):24-28. 被引量：1

二级引证文献1

1尚茹南,陈伟,孙伟,谢希宁.运营商数据要素确权机制研究[J].信息通信技术与政策,2024,50(4):91-96.

1冰河洗剑.留念精彩　网页搜藏服务一览[J].大众软件,2007(8):36-39.
2阮进,袁景瑞,梁循.互联网金融新闻搜索的文本消重方法研究[J].西华大学学报（自然科学版）,2008,27(2):1-3.
3张友谊.中职院校校园网Ipv6技术的实现与升级[J].中国科技投资,2014(A01):525-525.
4刘伟方,高淑范.从SCSI到SSA存储接口技术的新发展[J].金融电子化,1999,0(1):70-73.
5尤军考,谭献海,周文峰.基于Web Service的跨企业工作流管理系统模型研究[J].微计算机信息,2006,22(05X):29-31. 被引量：2
6黄连恩,李晓明.基于历史网页的事件报导信息系统设计与分析[J].计算机工程与科学,2008,30(2):1-4. 被引量：3
7黄连恩,张燕,李晓明.互联网上信息报道的最早发布时间检测[J].计算机科学与探索,2009,3(1):51-59. 被引量：3
8梁叶,梁京章,阳红,叶云.近似镜像检测算法在文本消重中的应用研究[J].广西大学学报（自然科学版）,2010,35(2):320-323. 被引量：2
9张大陆,吕韬.基于概念频率的Web服务语义标注[J].同济大学学报（自然科学版）,2008,36(1):103-107. 被引量：5
10梁晓欢.Stratasys:打出心中所想[J].电脑与电信,2012(9):1-4. 被引量：2

网络新媒体技术

2017年第1期

浏览历史

内容加载中请稍等...

基于语义的短文本消重算法研究被引量：2

参考文献1

二级参考文献50

共引文献15

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语义的短文本消重算法研究 被引量：2

参考文献1

二级参考文献50

共引文献15

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语义的短文本消重算法研究被引量：2