基于语义和TF-IDF的项目相似度计算方法被引量：8

Project similarity algorithm based on semantic and TF-IDF

下载PDF

导出

摘要基于统计的TF-IDF相似度计算方法由于不考虑词语的语义信息,不能准确地反映文本间的相似性。针对该问题,提出一种结合语义理解和TF-IDF的科技项目相似度计算方法。在项目分词的基础上,利用《知网》计算两个项目间的特征项语义相似度,基于TF-IDF计算每个特征项的权重,然后针对权重大于给定阈值的特征项进行加权进而计算得到项目相似度值。实验结果表明,该方法效果优于单纯的TF-IDF和语义理解的方法。 TF-IDF（term frequency - inverse document frequency）is one of the traditional text similarity calculation method based on statistics. Because TF-IDF does not consider the semantic information of words, it can not accurately reflect the similarity between texts. Aiming at this problem, this paper advances a method combined with the semantic tmderstanding and TF-IDF to calculate the similarity of technology project. Based on the word segmentation of the technology project and the information from the HowNet, calculates the feature semantic similarity of the two between, then calculates weight of each feature by using TF-IDF, and finally calculates the similarity value of the technology project according to the weight of the features that their weight is greater than the given threshold. The experimental results show that the method is better than the pure TF-IDF and the method of semantic understanding.

作者赵士杰陈秋

机构地区杭州电子科技大学软件与智能技术研究所

出处《计算机时代》 2015年第5期1-3,6,共4页 Computer Era

基金 2013年浙江省公益技术应用研究项目"基于语义的科技项目查重研究与实现"(2013C33G2040027)2013-2014

关键词语义理解《知网》特征项权重相似度计算 TF-IDF semantic understanding HowNet weight of feature similarity calculation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Agirre E, Rigau G. A proposal for word sense disambiguation using conceptual distance, Proc of International Conference Recent Advances in Natural Language Processing (RANLP),1995: 258-264.
2Wang Y ,Julia H . Document clustering with semantic analysis// Proceedings of the 39th Hawaii International Confer-ences on System Sciences.Hawaii,US,2006:54-63.
3刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
4金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
5肖志军,冯广丽.基于《知网》义原空间的文本相似度计算[J].科学技术与工程,2013,21(29):8651-8656. 被引量：9
6廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
7李海峰,党延忠.科技项目管理中知识的界定与表示方法研究[J].项目管理技术,2010,8(2):29-34. 被引量：11

二级参考文献45

1袁晓峰.《知网》义原相似度计算的研究[J].辽宁大学学报（自然科学版）,2011,38(4):358-361. 被引量：5
2罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
3张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
4程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4
5席运江,党延忠.基于加权知识网络的个人知识存量表示与度量方法[J].管理学报,2007,4(1):28-31. 被引量：8
6李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
7席运江,党延忠.基于加权知识网络的组织知识存量表示与度量[J].科学学研究,2007,25(3):493-497. 被引量：13
8刘群李素建.基于《知网》的词汇语义相似度计算[A]..第三届汉语词汇语义学研讨会[c].台北,2002..
9刘群李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002..
10俞士汶段慧明田剪秋.机械文摘自动评测的原理及实现[A].吴泉源.智能计算机接口与应用进展—第三届中国计算机智能接口与智能应用学术会议论文集[C].北京:电子工业出版社,1998.230-233.

共引文献207

1王凯,周建国,夏德麟,晏蒲柳,董伟钛.基于支持向量机的中文文本自动分类研究[J].计算机应用研究,2005,22(11):61-63. 被引量：3
2钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设计与实现[J].计算机应用研究,2006,23(12):260-262. 被引量：9
3秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
4商鹏,王晓琳.基于用户上下文的新闻服务机制研究[J].计算机工程与设计,2007,28(4):955-958.
5张映海,何中市,陈永锋.搜索引擎结果中Web文档的排序研究[J].计算机与数字工程,2007,35(2):126-129. 被引量：2
6徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
7徐德智,C.Onyango,王怀民.上位本体中语义相似度的计算及其实现[J].计算技术与自动化,2007,26(2):50-52.
8李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
9夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
10黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9

同被引文献54

1潘文慧,赵捧未,丁献峰.科研项目负责人网络位置对项目创新的影响[J].科研管理,2021,42(5):207-217. 被引量：8
2刘薇.区块链智能合约的法律性质[J].法治论坛,2020(2):69-81. 被引量：8
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5左川基于非分词技术的科技项目查重研究与实现[D].重庆:重庆大学,2010.
6Sahon G, Wong A, Yang C S. A vector space model for automatic indexing [ J ]. Communications of the ACM, 1975,18( 11 ) :613-620.
7SebtI A ,Barfrous A A. A new word sense similarity measure in Word-Net[ C]//Proceedings of the International Multi- conference on Computer Science and Information Technnology, Washington D C:.IEEE Computer Society, 2008:369-373.
8MyeSohn, Jun HyeokYim, Seongil Lee, Hyun Jung Lee. Ontology-based dynamic and semantic similarity calculation method for case-based reasoning [ J ]. Intelligent Automation & Soft Computing, 2014,20( 1 ):33-46.
9FaisalRahutomo,Masayoshi Aritsugi. Econo-ESA in semantic text similarity[ J ]. SpringerPlus ,2014,3 ( I ) : 1-13.
10重点基础研发计划申请[EB/OL].[2016-05-24].http://service.most.gov.cn/.NSFC[EB/OL].[2016-05-24].http://www.nsfc.gov.ca.

引证文献8

1贾异,童杨,董永庆,卞曙光,傅利平.基于大数据技术的国家科技计划项目评审立项研究[J].中国基础科学,2023,25(5):56-64. 被引量：1
2张新民,张爱霞,郑彦宁.科技项目查重系统构建研究[J].情报学报,2016,35(9):917-922. 被引量：4
3陈政伊,袁云静,贺月锦,武瑞轩.基于Python的微博爬虫系统研究[J].大众科技,2017,19(8):8-11. 被引量：9
4刘晓蒙,熊海涛.基于VSM和LDA混合模型的文本聚类研究[J].电脑知识与技术,2018,14(1):35-38. 被引量：1
5何奕,韩雨桐,白瑶,周世杰,施泽仁,王江盼.基于TF-IDF的智能合租匹配室友系统[J].中国市场,2021(27):185-186.
6崔洁.基于加权word2vec算法的文本相似度研究[J].电子测试,2021,32(21):53-55. 被引量：9
7苏蒙,沈映泉,吕星星,吴钰秀,吴安波.基于语义的科技项目查重方法设计与政策建议[J].内江科技,2022,43(4):85-87.
8杜军,谭鹏,陈曦,李俊,马继涛.一种基于最小值和Min-Max方法修正的科研项目综合相似度计算方法[J].云南民族大学学报（自然科学版）,2023,32(6):759-763.

二级引证文献24

1梁思远.浅谈利用paython语言完成电商网站商品信息的爬取代码设计[J].数码世界,2018,0(2):262-262.
2郑鑫臻,吴韶波.基于网络爬虫技术的时令旅游信息获取[J].物联网技术,2018,8(5):83-84. 被引量：5
3孙隽韬,陈炳丰,黄爱华.一种基于Python的商品评论数据智能获取与分析技术[J].现代计算机（中旬刊）,2018(5):16-19. 被引量：1
4赖敬之.基于网络爬虫的新浪微博数据分析网站的建立[J].通讯世界,2018,25(2):73-74. 被引量：1
5孟亚茹,姚凯学,安世博.基于Python的网络关键字热度获取工具的研究与实现[J].电子技术与软件工程,2018(17):181-182. 被引量：5
6何福泉,李伟烽,林培娜,李俊华.验证码的识别技术分析与研究[J].甘肃科技纵横,2019,48(2):1-4. 被引量：4
7杜晓旭,贾小云.基于Python的新浪微博爬虫分析[J].软件,2019,40(4):182-185. 被引量：14
8张敏华,杜友田,王倩.融合静态与动态建模的网络事件聚合方法[J].计算机工程与应用,2019,55(18):15-20.
9周育忠,陶秀杰,张自锋,韦嵘晖,杨宇亮.科技项目查重系统在企业中的实践应用[J].河南科技,2019,0(28):32-35. 被引量：2
10韦嵘晖,王庆红,孙辛博,王洪俊.电力领域科技查新系统的设计与实现[J].电力大数据,2020,23(2):46-52. 被引量：4

1高娜,杨明.嵌入LDA主题模型的协同过滤推荐算法[J].计算机科学,2016,43(3):57-61. 被引量：17
2吴月萍,郑建国.改进相似性度量方法的协同过滤推荐算法[J].计算机应用与软件,2011,28(10):7-8. 被引量：12
3孟彩霞.基于项目相似度过滤的分布式资源信息管理系统[J].求知导刊,2015(10):80-81. 被引量：1
4徐翔宇,刘建明.基于多层次项目相似度的协同过滤推荐算法[J].计算机科学,2016,43(10):262-265. 被引量：2
5田保军,胡培培,杜晓娟,苏依拉.Hadoop下基于聚类协同过滤推荐算法优化的研究[J].计算机工程与科学,2016,38(8):1615-1624. 被引量：18
6王志虎,黄曼莹.基于用户历史行为的协同过滤推荐算法[J].微电子学与计算机,2017,34(5):132-136. 被引量：14
7王鸿铭,沈夏炯,李国雁,臧国轻.基于等价类的关联规则挖掘矩阵算法[J].计算机技术与发展,2008,18(4):55-58. 被引量：2
8许智宏,王宝莹.基于项目综合相似度的协同过滤算法[J].计算机应用研究,2014,31(2):398-400. 被引量：13
9张玉连,郇思思,梁顺攀.融合用户相似度与项目相似度的加权Slope One算法[J].小型微型计算机系统,2016,37(6):1174-1178. 被引量：9
10雷鸣,朱明.一种改进的基于项目语义的推荐算法[J].微电子学与计算机,2016,33(12):93-97.

计算机时代

2015年第5期

浏览历史

内容加载中请稍等...

基于语义和TF-IDF的项目相似度计算方法被引量：8

参考文献7

二级参考文献45

共引文献207

同被引文献54

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于语义和TF-IDF的项目相似度计算方法 被引量：8

参考文献7

二级参考文献45

共引文献207

同被引文献54

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于语义和TF-IDF的项目相似度计算方法被引量：8