一种基于语义的中文文本相似度算法被引量：7

A Similarity Algorithm for Chinese Text Based on Semantics

下载PDF

导出

摘要利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算。将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值。实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高。 This paper computes the semantic similarity of words using the How Net and extracting the text keywords to compute the similarity of the texts. After segmenting the text and filtering stop words,it calculates the weights of word to extract the key words of the text by combining the gender,word frequency and paragraph frequency of the word. By calculating the similarity of the keywords,the similarity value of the texts is calculated. The analysis of the significant difference of the experimental results shows that its accuracy is further improved compared with the traditional semantic algorithm and vector space model algorithm.

作者夏志明刘新

机构地区湘潭大学信息工程学院智能计算与信息处理教育部重点实验室

出处《计算机与现代化》 2015年第4期6-9,共4页 Computer and Modernization

基金湖南省自然科学基金资助项目(12JJ3066) 湖南省高校科技成果产业化培育项目(11CY018) 湖南省"十二五"重点学科项目

关键词文本相似度语义《知网》关键词段频 text similarity semantic HowNet keywords paragraph frequency

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Gerard Salton, Wong A, Yang C S. A vector space model for automatic indexing[ J]. Communication of ACM, 1975,18( 11 ) :613-620.
2余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
3Lee N, Kim J M. Conversion of categorical variables into numerical variables via Bayesian network classifiers for bi- nary classifications [ J ]. Computational Statistics & Data A- nalysis, 2010,54(5) : 1247-1265.
4Li Y, Bandar Z A, Mclean D, et al. An approach for measuring semantic similarity between words using multiple information sources [ J ]. IEEE Transactions on Knowledge and Data Engineering, 2003,15 (4) : 871-882.
5李熙,徐德智.基于WordNet的概念语义相似度研究[J].湖南科技学院学报,2008,29(12):115-116. 被引量：8
6贾可亮,樊孝忠,张禹.基于HowNet语义相似度的FAQ研究[J].计算机应用,2007,27(9):2256-2257. 被引量：10
7孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56. 被引量：61
8Jiang J, Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy [ C ]// Proceedings of Inter- national Conference on Research in Computational Linguis- tics. 1997 : 19-33.
9金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
10Higgins D. Which statistics reflect semantic? Rethinking synonymy and word similarity[ C]// Proceedings of Inter- national Conference on Linguistic Evidence. 2004:265- 284.

二级参考文献81

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
3曹泽文,钱杰,张维明,邓苏.一种综合的概念相似度计算方法[J].计算机科学,2007,34(3):174-175. 被引量：35
4黄果,周竹荣,周亭.基于领域本体的语义相似度计算研究[J].计算机工程与科学,2007,29(5):112-117. 被引量：21
5陆汝钤.知识科学与计算科学[M].北京：清华大学出版社,2002..
6董振东董强.知网简介[M].1999[EB/OL].http://www.keenage.com.,.
7龚劬.图论与网络最优化算法[M].重庆:重庆大学出版社,2000.87-96.
8Berners-Lee T, Hendler J, Lassila O. The Semantic Web[J], Scientific American, 2001, 284(5): 34-43.
9R.Richardson, A.ESmeaton, J.Murphy. Using WordNet as a Knowledge Base for Measuring Semantic Similarity between Words[C]. School of Computer Applications Working Paper CA- 1294. Dublin,Ireland,2004:154-167.
10Alexander Budanitsky, Graeme Hirst. Evaluating WordNet-based Measures of Lexical semantic Relatedness[J]. Computational Linguistics, 2004, 1(1): 1-49.

共引文献265

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
3张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
4胡哲,郑诚.一种改进的基于领域本体的概念语义相似度算法[J].齐齐哈尔大学学报（自然科学版）,2013,29(1):1-6. 被引量：1
5周利民,童珉,陈燕双.面向互联网视频主题管理的搜索引擎关键技术研究及实现[J].广播与电视技术,2014,41(6):31-35. 被引量：1
6秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
7李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
8黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
9易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
10化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2

同被引文献80

1李强,袁毓林.生成词库理论和名词语义的结构描述与概念解释[J].语言学论丛,2019(1):263-295. 被引量：1
2王砚农.谈谈“中医汉语”系列教材[J].世界汉语教学,1992,6(4):301-303. 被引量：9
3彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
4金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
5刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：22
6刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
7吴宏林,刘绍明,于戈.基于加权二部图的汉日词对齐[J].中文信息学报,2007,21(5):101-106. 被引量：7
8董振东董强.知网[EB／OL].http://www.keenage.com,1999—09—23/2004—03—06.
9刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
10GOBL C, NiA. The role of voice quality in communicating emotion, mood and attitude [J]. Speech Communication, 2003, 40(1) :189-212.

引证文献7

1胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：6
2黄思颖,蔡桂兰,徐凯,江和松,邱舟强,陈平华.基于SolrCloud的分布式科技项目查重系统[J].科技管理研究,2018,38(7):236-242. 被引量：4
3张绍阳,曹家波,王子凡,曲卫东.基于加权二部图匹配的中文段落相似度计算[J].计算机工程与应用,2017,53(18):95-101. 被引量：4
4李楠,张凡娜.一种基于语义的搜索引擎算法及实现[J].商洛学院学报,2018,32(6):1-5.
5罗有志,陈征明,陈明,梅文涛.一种基于自适应关联熵的关键字提取算法[J].计算机与现代化,2020,0(4):67-71. 被引量：1
6刘华,李晓源.基于语料库的中医汉语主题词表构建[J].华文教学与研究,2022(2):77-85. 被引量：8
7苏蒙,沈映泉,吕星星,吴钰秀,吴安波.基于语义的科技项目查重方法设计与政策建议[J].内江科技,2022,43(4):85-87.

二级引证文献23

1吕文清,张黎明,马磊,陈金萍.BIBD的矢量空间数据数字指纹算法[J].测绘科学,2017,42(12):134-139. 被引量：3
2汪一百,陈实,叶剑锋.利用深度学习的文本相似度计算方法[J].湘潭大学自然科学学报,2018,40(2):104-107. 被引量：4
3晋晓琳,张树武,刘杰.基于分布式架构的海量文本快速相似度检测研究[J].中国传媒大学学报（自然科学版）,2019,26(1):39-44.
4曹建文,万福成.面向自动问答系统的问句相似度计算研究[J].重庆大学学报（自然科学版）,2019,42(9):114-122. 被引量：4
5王东,林宏.一种试题智能提取与批量导入方法[J].贵阳学院学报（自然科学版）,2020,15(1):87-92. 被引量：3
6吴彬,杨振兴,郭芳琳,唐笑梅.工程项目查重系统的相关应用分析[J].经济研究导刊,2020,0(11):189-191.
7刘聪,王永利,周子韬,犹锋,张才俊.结合触发事件及词性分析的敏感信息识别方法[J].计算机工程与应用,2020,56(20):132-137. 被引量：6
8孙亚洲,胡洛林.一种基于6Gen算法的IPv6地址生成方法[J].现代计算机,2020,26(28):17-22.
9杨延娇,赵国涛,袁振强,韩家臣.融合语义特征的TextRank关键词抽取方法[J].计算机工程,2021,47(10):82-88. 被引量：12
10夏涛,吉琳娜,刘哲,杨风暴.基于点对局部拓扑和加权二分图的地面目标关联[J].探测与控制学报,2021,43(6):106-112.

1巫可,战荫伟,李鹰.融合用户属性的隐语义模型推荐算法[J].计算机工程,2016,42(12):171-175. 被引量：17
2万程,王东.结果页面信息的提取和结果筛选算法的研究[J].计算技术与自动化,2008,27(3):24-27.
3刘一星,梁山.基于改进ATSVM算法的评审专家自动推荐模型[J].重庆科技学院学报（自然科学版）,2010,12(1):134-136. 被引量：8
4蔡巍,王永成,李伟,尹中航.三种分类算法的实验比较[J].上海交通大学学报,2004,38(4):510-512. 被引量：2
5麻会东,刘国华,李旭,梁鹏,刘春辉,张凌宇.基于提取关键词的中文文档复制检测研究[J].计算机工程与科学,2007,29(10):63-64. 被引量：6
6高仕龙.基于奇异值分解的英文文本检索算法[J].计算机工程,2011,37(1):78-80. 被引量：2
7覃冬梅,张晓芳,邹予婷,胡平,苗伟.电学领域的检索技巧[J].硅谷,2013,6(12):85-85.
8高继刚.浅析计算机关键词检索的选取在专利检索中的作用[J].通讯世界（下半月）,2015(6):257-257. 被引量：1
9彭巨.应用Coutourlet分层阈值的图像去噪方法[J].科技风,2014(20):108-109.
10张东生,季超.基于向量空间模型的基因序列聚类及仿真实验[J].微计算机信息,2010,26(16):155-157.

计算机与现代化

2015年第4期

浏览历史

内容加载中请稍等...

一种基于语义的中文文本相似度算法被引量：7

参考文献16

二级参考文献81

共引文献265

同被引文献80

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种基于语义的中文文本相似度算法 被引量：7

参考文献16

二级参考文献81

共引文献265

同被引文献80

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种基于语义的中文文本相似度算法被引量：7