相似度算法分析与比较研究被引量：6

Research on the Analysis and Comparison on Similarity Algorithm

下载PDF

导出

摘要针对RSS阅读器中冗余信息带来的不便,在采用中文分词和TF.IDF算法计算相似度进行预处理后,选取Levenshtein、余弦夹角法、Jaccard这三种相似度算法进行冗余信息鉴别。详细讨论这些方法的特征,并从实际应用的角度对这些方法的长处和不足做分析与比较,并选择Jaccard算法实现一个数据过滤机制。 In order to overcome the disadvantages of redundant RSS information, after using technologies of Chinese Segmentation and TP-IDF algorithm as pretreatment for similarity algorithm com- parison, makes the comparison among Levenshtein, Cosine ratio and Jaccard algorithm. Dis- cusses the features of these algorithms and compares the strengths and weaknesses. And intro- duces a simple data filtration mechanism by using optimal Jaccard algorithm.

作者陈天刘文浩

机构地区四川大学软件工程系

出处《现代计算机》 2012年第12期18-20,共3页 Modern Computer

关键词计算机应用技术 TP·IDF 相似度计算:ICTCLAS Computer Applications Technology TP.IDF Similitude Calculate ICTCLAS（Institute of ComputingTechnology, Chinese Lexical Analysis System）

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1Costas S. Iliopoulos, M. Sohel Rahman. A New Efficient A1 gorithm for Computing the Longest Common Subsequence, Theory of Computing Systems, 2008,2:1432-4350 (Print) 1433-0490 (Online)[J].
2胡迪,陈运,杨义先,陈悦.基于支持向量机与余弦夹角法的中文网页过滤的研究与设计[J].成都信息工程学院学报,2011,26(5):527-532. 被引量：2
3潘磊,雷钰丽,王崇骏,谢俊元.基于权重的Jaccard相似度度量的实体识别方法[J].北京交通大学学报,2009,33(6):141-145. 被引量：17
4林永民,吕震宇,赵爽,朱卫东.文本加权方法TF-IDF的分析与改进.计算机工程设计,2008,29(11):1001-7024.[J].

二级参考文献17

1屈培,葛蓁.Nutch-0.8.1中二分法中文分词的实现[J].计算机时代,2007(7):9-11. 被引量：5
2Mc Callum A K, Weller B. Conditional Models of Identity Uncertainty with Application to Noun Coreference [ R]. NIPS, 2004.
3Li X Morie P, Roth D. Semantic Interation in Text: From Ambiguous Names to Identifiable Entities[ M ]. AI Magazine: Special Issue on Semantic Integration, 2005.
4Monge A E, Elkan C P. The Field Matching Problem: Algorithms and Apphcations[ C]//Proceedings of the Second International Conference on Knowledge Disco-very and Data Mining(KDD-96). Portland: OR, 1996, 8: 267- 270.
5Navarro G. A Guided Tour to Approximate String Matching[J]. ACM Computing Surveys,2001,33(1) :31 - 88.
6Chaudhuri S, Ganjam K, Ganti V, et al. A Robust and Ef-ficient Fuzzy Match for Online Data Cleaning[C]//Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data. San Diego: CA, 2003:313 - 324.
7Cohen W W, Ravikumar P, Fienberg S E. A Comparision of String Distance Metrics for Name-Matching Tasks[ C]// Proceedings of the IJCAI-2003 Workshop on Information Integration on the Web. Acapulco: Mexico, 2003,8 : 73 - 78.
8Ananthakrishna R, Chaudhuri S, Ganti V. Eliminating Fuzzy Duplicates in Data Warehouse [ C] // International Conference on Very Large Data Base (VLDB). Hong Kong : 2002 : 586 - 597.
9Kalashnikov D V, Mehrotra S, Chen Z. Exploiting Relationships for Domain-Independent Data Cleaning [ C ] // SIAM International Conference on Data Mining, 2005, 4: 21 - 23.
10Bhattacharya I, Getoor L. Iterative Record Linkage for Cleaning and Integration[C]//SIGMOD 2004 Workshop on Research Issues on Data Mining and Knowledge Discovery, 2004, 6:11- 18.

共引文献17

1刘运通,梁燕军.基于分段语义比较的语句相似度计算方法[J].计算机工程与设计,2013,34(7):2637-2640. 被引量：3
2韩玉兰,朱洪艳,韩崇昭,王静.多扩展目标的高斯混合概率假设密度滤波器[J].西安交通大学学报,2014,48(4):95-101. 被引量：13
3陈姗.一种基于属性值分布的异构数据对象的相似度计算方法[J].网络安全技术与应用,2018(12):39-39.
4嵇威华,吕国芳.基于广义Jaccard系数处理冲突证据方法[J].控制工程,2015,22(1):98-101. 被引量：7
5余远文,邓益民.基于广义集合的可变功能机械功能耦合性分析[J].机械制造,2015,53(2):77-80.
6石曦彤,汪嘉琪,刘邦望,李叶.一种基于用户隐式反馈的微博信息过滤方法[J].智能计算机与应用,2016,6(3):38-40. 被引量：1
7叶志雄,朱丽芳,刘钢庭,李启文,王丹弘.基于Hadoop平台的内容相似度与PageRank的垃圾短信识别融合模型[J].广东通信技术,2016,36(9):5-9.
8张晗.电网主设备状态监测参数体系的构建与应用[J].陕西电力,2016,44(10):47-51.
9刘群,刘秋霞.基于策略扩散的群体行为演化机制研究[J].小型微型计算机系统,2017,38(1):133-137. 被引量：1
10张晓雨,何华锋,郑建飞,董海迪.某伺服机构健康评估方法研究[J].电光与控制,2017,24(3):64-67. 被引量：1

同被引文献36

1宋雅婷,徐天伟.基于用户兴趣的个性化推荐技术综述[J].云南大学学报（自然科学版）,2012,34(S1):20-23. 被引量：6
2Liqin Wei, Xueqing Li, Lei Tang. History and Asym-metric Sierpinski Carpet Based Employment Recom-mendation[C]//Proceedings of the 2012 IEEE Interna-tional Symposium on IT in Medicine Education, IT-ME, 2012:48-52.
3Jobvite 2011 Social Recruiting Survey. Dec. 2011. ht-tp;//recruiting. jobvite. com/.
4Yao Lu,Sandy EL Helou,Denis Gillet. A Recommen-der System for Job Seeking and Recruiting. WWW,2013:963-966.
5Wenxing Hong, Lei Li, Tao Li, et al. iHR: an onlinerecruiting system for Xiamen Talent Service Center.KDD,2013:1177-1185.
6X. Cai,M. Bain, A. Krzywicki, et al. Collaborativefiltering for people to people recommendation in socialnetworks. Advances in Artificial Intelligence, 2011 :476-485.
7Lu,Y.,Helou, S. E.,Gillet, D. Analyzing UserPatterns to Derive Design Guidelines for Job Seekingand Recruiting Website[C]//Proceeding of the FourthInternational Conferences on Pervasive Patterns andApplications,2012:11-16.
8邓薇,王绪本,李文超,毛立峰.2.5D-FDTD数值算法的建立和模拟[J].地球物理学进展,2008,23(1):82-88. 被引量：3
9陈雪峰,李树刚.基于BP神经网络的虚拟物品个性化设计推荐[J].计算机工程,2008,34(10):193-195. 被引量：3
10许海玲,吴潇,李晓东,阎保平.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362. 被引量：542

引证文献6

1陈刚,顾丹.基于相似度的总装作业集划分方法研究[J].机械设计与制造工程,2014,43(1):69-72.
2尹传城,王洪国,丁艳辉.一种基于在校历史信息的就业推荐算法[J].计算机与数字工程,2015,43(10):1742-1745. 被引量：5
3金连旭,王洪国,丁艳辉,张骏.基于兴趣敏感度的高校毕业生就业推荐算法[J].计算机与数字工程,2017,45(2):201-205. 被引量：6
4吕同双,王洪国,刘迎港,尹传城,丁艳辉.基于立体数据的高校学生就业去向预测方法[J].计算机集成制造系统,2019,25(4):1032-1036. 被引量：15
5刘清,王帆,冯亮,夏天鹤,熊志奇,施涛.高效图推荐算法应用研究[J].软件导刊,2019,18(8):49-51. 被引量：3
6陈方舟,阚银辉.空域电磁场快速重构的随机分布优化方法[J].电子学报,2023,51(9):2313-2320.

二级引证文献28

1刘鑫琳,邹存伟.高等职业院校大学生“慢就业”现象研究[J].就业与保障,2023(4):34-36. 被引量：3
2宋振祥,谢辉忠,张成富,唐黎明,王屹.外伤性尿道狭窄或闭锁150例手术治疗体会[J].湖南医学,2000,17(2):100-100.
3金连旭,王洪国,丁艳辉,张骏.基于兴趣敏感度的高校毕业生就业推荐算法[J].计算机与数字工程,2017,45(2):201-205. 被引量：6
4陈荣征,陈景涛,林泽铭.基于网络爬虫和智能推荐的大学生精准就业服务系统研究[J].电脑与电信,2019(1):39-43. 被引量：4
5吕同双,王洪国,刘迎港,尹传城,丁艳辉.基于立体数据的高校学生就业去向预测方法[J].计算机集成制造系统,2019,25(4):1032-1036. 被引量：15
6姚建斌,赵龙伟,李海瑞.一种可解释的混合型就业推荐算法[J].信息系统工程,2019,32(6):142-144. 被引量：2
7刘清,王帆,冯亮,夏天鹤,熊志奇,施涛.高效图推荐算法应用研究[J].软件导刊,2019,18(8):49-51. 被引量：3
8彭丹.萤火虫算法改进支持向量机的高校就业率预测[J].广东通信技术,2020,40(11):52-54.
9张志辉,刘增奇.基于大数据集成技术的高校毕业生就业率预测研究[J].现代电子技术,2021,44(4):79-82. 被引量：3
10刘小杰.基于数据驱动的高校毕业生就业率预测研究[J].现代电子技术,2021,44(5):127-131. 被引量：3

1李疆,张韶山.浅析企业网络安全问题及解决方案[J].民航科技,2003(3):11-12.
2李宝林,张翼英,兰芸.用关联分析技术识别不良信息特征项的新方法[J].计算机工程与应用,2003,39(28):39-41. 被引量：6
3吴锦欢.使用ACL实现包过滤之探析[J].福建电脑,2014,30(12):149-151.
4甄志龙,于非,王海鹃.有监督保局索引的文本表示方法[J].通化师范学院学报,2010,31(8):40-41.
5冯中慧,何亮,王栋.基于新的成员选择方法的聚类融合算法[J].微电子学与计算机,2016,33(11):25-29. 被引量：3
6侯俊谋.脸部扫描登录邮箱[J].科技创业,2012(10):20-21.
7张瑞,王继奎,郭娟娟.基于本体的自适应网站研究[J].科技传播,2010,2(16):204-204.
8孙宇.一种基于Jaccard相似度的社团发现方法[J].电子技术与软件工程,2016(3):20-20. 被引量：4
9胡迪,陈运,杨义先,陈悦.基于支持向量机与余弦夹角法的中文网页过滤的研究与设计[J].成都信息工程学院学报,2011,26(5):527-532. 被引量：2
10周瑾.基于主成分分析的制造单元形成方法(英文)[J].上海第二工业大学学报,2012,29(4):277-282.

现代计算机

2012年第12期

浏览历史

内容加载中请稍等...

相似度算法分析与比较研究被引量：6

参考文献4

二级参考文献17

共引文献17

同被引文献36

引证文献6

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

相似度算法分析与比较研究 被引量：6

参考文献4

二级参考文献17

共引文献17

同被引文献36

引证文献6

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

相似度算法分析与比较研究被引量：6