基于关键词重提取的密文文本相似性度量方法研究被引量：2

Similarity Measure Algorithm of Cipher-text Based on Re-extracted Keywords

下载PDF

导出

摘要针对密文的相似性度量问题,提出了一种新的密文文本相似性度量方法。该方法通过定义关键词的有效作用域、相对作用域、分散域的概念,有效克服了现有的关键词权重量化方法不能对篇幅不同、结构不同的文档进行相对公平的关键词权重量化的不足,同时显著减少了文本度量时所依赖的关键词数量。进一步对文档的关键词进行重提取,并建立文档的关键词密文索引条目,通过密文的索引条目来度量密文的相似性。将该方法在真实文档上进行实验,并同其它算法进行比较,结果表明所提出的方法在准确率和召回率两方面优于其它参与比较的算法,并能在准确率和召回率之间取得比较好的平衡。 To solve the similarity of dissimilarity measurement between the cipher texts,a new similarity measure algo- rithm of cipher-text based on re-extracted keywords called SMCTBRK was proposed. Through defining the new con- cepts of effective scope, relative scope, distributed scope of the keywords, and re-extracting the keywords in documents, the SMCTBRK constructs the encryption index item for the compared documents depending on the less amounts of re- extracted keywords. Here, the encryption index item is organized as the feature vector. Further, the SMCTBRK com- putes the similarity between the different cipher texts by the encryption index item instead of the separated keywords. Experiments on real documents were conducted. And the results show that the SMCTBRK is more promised than the Shingling algorithm and the Simhash algorithm on accuracy and recall ratio.

作者李志华陈超群李村胡振宇张华伟 LI Zhi-hua CHEN Chao-qun LI Cun HU Zhen-yu ZHANG Hua-wei(Department of Computer Science,School of IOT Engineering,Jiangnan University,Wuxi 214122,China)

机构地区江南大学物联网工程学院计算机科学系

出处《计算机科学》 CSCD 北大核心 2016年第8期95-99,共5页 Computer Science

基金江苏省科技厅产学研前瞻项目(BY2013015-23)资助

关键词关键词重提取相似性度量密文文本作用域 Re-extracted keywords, Similarity measure, Cipher texts, Effective scope

分类号 TP309.5 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1施侃晟,刘海涛,宋文涛.基于词性和中心点改进的文本聚类方法[J].模式识别与人工智能,2012,25(6):996-1001. 被引量：6
2张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
3宋擒豹,杨向荣,沈钧毅,齐勇.数字商品非法复制的检测算法[J].计算机学报,2002,25(11):1206-1211. 被引量：16
4徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233

二级参考文献79

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
3赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
4宋擒豹.电子商务环境下的数据挖掘研究：博士学位论文[M].西安:西安交通大学,2001..
5Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
6Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
7Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
8Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
9Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
10Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.

共引文献260

1刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
2史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
3金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9
4陈旺,金博,滕弘飞,史彦军,张艳.面向高校师生的应用文CAW系统研究[J].计算机工程与应用,2006,42(26):204-207. 被引量：2
5易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
6秦新国.基于句子相似度的文档复制检测算法研究[J].现代图书情报技术,2007(11):63-66. 被引量：9
7邢长征,孙伟.一种改进的基于句子相似度的检测算法[J].计算机系统应用,2010,19(2):90-92. 被引量：1
8徐德玉,王迪.基于COPS原型系统的网上文章复制检测[J].科技信息,2009(31):49-50. 被引量：1
9孙伟,邢长征.关于中文文档复制检测算法的改进[J].计算机工程与科学,2010,32(8):101-103. 被引量：2
10王建国,杨焕海.基于篇章结构相似度的中文学术论文复制检测技术研究[J].现代计算机,2010,16(6):20-23.

同被引文献18

1罗永龙,黄刘生,荆巍巍,徐维江,陈国良.保护私有信息的叉积协议及其应用[J].计算机学报,2007,30(2):248-254. 被引量：30
2庞俊,谷峪,许嘉,于戈.相似性连接查询技术研究进展[J].计算机科学与探索,2013,7(1):1-13. 被引量：15
3李圣文,凌微,龚君芳,周长征.一种基于熵的文本相似性计算方法[J].计算机应用研究,2016,33(3):665-668. 被引量：13
4肖和,付丽娜,姬东鸿.神经网络与组合语义在文本相似度中的应用[J].计算机工程与应用,2016,52(7):139-142. 被引量：7
5黄贤英,李沁东,刘英涛.结合词性的短文本相似度算法及其在文本分类中的应用[J].电讯技术,2017,57(1):78-82. 被引量：11
6程蔚,线岩团,周兰江,余正涛,王红斌.基于双语LDA的跨语言文本相似度计算方法研究[J].计算机工程与科学,2017,39(5):978-983. 被引量：7
7孙志远,王伟,马迪,毛伟.移动营销领域的文本相似度计算方法[J].计算机应用,2017,37(A01):292-294. 被引量：6
8赵倩倩.动态数据环境下网络重复数据检测方法仿真[J].计算机仿真,2017,34(6):445-448. 被引量：5
9杜一帆,王建,刘立,何宇清.自然场景中基于单样例的文本检测算法[J].小型微型计算机系统,2017,38(8):1867-1871. 被引量：1
10李海林,邹金串.基于分类词典的文本相似性度量方法[J].智能系统学报,2017,12(4):556-562. 被引量：6

引证文献2

1逯绍锋,胡玉龙,逯跃锋.保护隐私的集合相似性度量协同计算协议[J].计算机技术与发展,2023,33(1):137-143. 被引量：1
2谢毅.移动网络相似信息重复记录智能检测仿真[J].计算机仿真,2019,36(2):439-442. 被引量：1

二级引证文献2

1金涛伟,冷荣伟,张迪,刘畅.基于信任模型的中医药方剂相似度计算方法[J].计算机仿真,2021,38(2):244-248. 被引量：2
2吕鹏,毕斯鹏,管正青,成海波.智能社会协同治理:研究现状与发展趋势[J].华南师范大学学报（自然科学版）,2023,55(1):19-35. 被引量：1

1石陆魁,王歌,杨璐,张军.基于特征词相交和流形学习的文本分类方法[J].河北工业大学学报,2014,43(2):1-7. 被引量：1
2程卫星,郝爱民.面向分布式游戏服务器的消息公平处理方法[J].计算机工程,2008,34(10):19-21. 被引量：2
3侯振兴.基于Agent的信息过滤中改进的关键词权重算法研究[J].北京电子科技学院学报,2009,17(2):48-53.
4张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
5魏东平,苑志朋.基于关键词权重的XML查询结果排序方法[J].计算机系统应用,2017,26(4):198-202. 被引量：1
6黄贤英,陈红阳,刘英涛.短文本相似度研究及其在微博话题检测中的应用[J].计算机工程与设计,2015,36(11):3128-3133. 被引量：11
7刘铭,吴冲,刘远超,孙承杰.基于特征权重量化的相似度计算方法[J].计算机学报,2015,38(7):1420-1433. 被引量：8
8谢晋.基于词跨度的中文文本关键词自动提取方法[J].现代物业（中旬刊）,2012,11(4):108-111. 被引量：6
9苏小虎.VSM的权重改进对文档相似度的影响研究[J].电脑知识与技术,2008(4):135-137. 被引量：3
10徐九韵,迟焕醒,江丹,肖晗,张红霞,郭加树.一种基于回馈网络的物联网设备处理的服务调度模型[J].小型微型计算机系统,2017,38(1):24-28. 被引量：2

计算机科学

2016年第8期

浏览历史

内容加载中请稍等...

基于关键词重提取的密文文本相似性度量方法研究被引量：2

参考文献4

二级参考文献79

共引文献260

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于关键词重提取的密文文本相似性度量方法研究 被引量：2

参考文献4

二级参考文献79

共引文献260

同被引文献18

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于关键词重提取的密文文本相似性度量方法研究被引量：2