基于语义理解的文本相似度算法被引量：80

Experimental research on premixed gases explosion in overpressure

下载PDF

导出

摘要相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. Text similarity counting has been widely used in several fields, for example, the field of copy detection and the field of information retrieval, etc.. With the study of text similarity computing and semantic understanding, the textural similarity counting can be expanded to paragraph similarity counting, and then the paragraph similarity counting can be expanded to article similarity counting. A new set of textural (including words, sentences and paragraphs) similarity algorithm is given. This algorithm can count out the similarity rate of two texts. Compared with other methods of similarity computing, the algorithm can raise the recall rate.

作者金博史彦军滕弘飞

机构地区大连理工大学机械工程学院

出处《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页 Journal of Dalian University of Technology

基金国家自然科学基金资助项目(60073036 50275019)派生研究.

关键词语义理解相似度算法相似度计算计算方法文本相似度语义相似度信息检索实例验证计算公式准确性文档知网 Algorithms Information retrieval Knowledge representation Semantics Statistical methods Text processing

分类号 TP311 [自动化与计算机技术—计算机软件与理论] C931 [经济管理—管理学]

引文网络
相关文献

参考文献10

1俞士汶段慧明田剪秋.机械文摘自动评测的原理及实现[A].吴泉源.智能计算机接口与应用进展—第三届中国计算机智能接口与智能应用学术会议论文集[C].北京:电子工业出版社,1998.230-233.
2车万翔刘挺秦兵.面向双语句对检索的汉语句子相似度计算[A]..全国第七届计算语言学联合学术会议[C].北京:清华大学出版社,2003.81-88.
3刘群李素建.基于《知网》的词汇语义相似度计算[A]..第三届汉语词汇语义学研讨会[c].台北,2002..
4李素建.基于语义计算的语句相关度研究[J].计算机工程与应用,2002,38(7):75-76. 被引量：83
5董振东董强.知网[EB／OL].http://www.keenage.com.,2003-07—12.
6WILLETT P. Recent trends in hierarchical document clustering: a critical review [J]. Inf Process and Manage, 1988, 24(5) : 577-597.
7SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval [J]. Inf Process and Manage, 1988, 24(5) : 513-523.
8CALLAN J P. Passage-level evidence in document retrieval [A]. Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. Dublin: [s n], 1994. 302-310.
9AGIRRE E, RIGAU G. A proposal for word sense disambiguation using conceptual distance [A].International Conference on Recent Advances in Natural Language Processing [C]. Velingrad : [s n],1995. 258-264.
10ZHANG Hua-ping, Yu Hong-kui, Xiong De-yi, et al. HHMM-based Chinese lexieal analyzer ICTCLAS[A]. 41st Annual Meeting of the Association for Computational Linguistics [C]. Sapporo: [s n],2003. 184-187.

二级参考文献1

1穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.

共引文献99

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2王常亮,闫利华,吴曦德.基于XML的智能答疑系统研究[J].赤峰学院学报（自然科学版）,2008,24(9):86-89.
3周粉,夏幼明.一种改进的基于知网的语义相似度计算方法[J].云南大学学报（自然科学版）,2008,30(S2):215-218. 被引量：1
4高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004,40(14):132-135. 被引量：47
5刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：36
6许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
7王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
8姚爱钢,易绵竹.基于语义分析的文本自动文摘研究[J].中国俄语教学,2005,24(3):47-50.
9刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4
10徐德智,郑春卉,K. Passi.基于SUMO的概念语义相似度研究[J].计算机应用,2006,26(1):180-183. 被引量：56

同被引文献727

1殷丽华,方滨兴.一种改进的多模式匹配算法[J].华中科技大学学报（自然科学版）,2005,33(z1):300-303. 被引量：4
2李卫,王枞,李蕾,郭燕慧,钟义信.全信息知识制导的科技期刊初审辅助系统[J].北京邮电大学学报,2006,29(z2):127-132. 被引量：2
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4祝庆荣,董守斌,陈彬.基于SMO和指纹技术在线邮件过滤方法与优化[J].郑州大学学报（理学版）,2009,41(1):90-93. 被引量：1
5谢小勇.构建企业专利预警应急机制[J].中国发明与专利,2007(5):79-80. 被引量：8
6袁晓芳,李红霞,田水承.煤矿重大瓦斯事故案例推理应急决策方法[J].辽宁工程技术大学学报（自然科学版）,2012,31(5):595-599. 被引量：10
7刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
8程纪淞.浅谈微博技术对群体性事件的影响[J].国防,2011(5):59-61. 被引量：2
9刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
10彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17

引证文献80

1李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
2黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
3易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
4化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
5沙莎,胡发连.基于概念结构的科技论文知识管理[J].情报学报,2007,26(6):858-862.
6刘卫红.基于非功能语义的语义Web服务匹配方法研究[J].微型电脑应用,2008,24(7):20-22.
7李旭,赵亚伟,刘国华.基于指纹和语义特征的文档复制检测方法[J].燕山大学学报,2008,32(4):334-339. 被引量：5
8化柏林.基于篇章内容分析的文本信息处理系统差异性探析[J].情报杂志,2008,27(9):29-32. 被引量：3
9李子叶,王亚刚,郭菊娥,席酉民.基于模糊集贴近度的文本信息分类器分辨率改进算法研究[J].管理工程学报,2009,23(1):13-18.
10聂规划,付志超,陈冬林,刘平峰.基于本体的论文复制检测系统[J].计算机工程,2009,35(6):79-81. 被引量：9

二级引证文献345

1贾异,童杨,董永庆,卞曙光,傅利平.基于大数据技术的国家科技计划项目评审立项研究[J].中国基础科学,2023,25(5):56-64. 被引量：2
2赵法森,刘飞翔,李泽荃,李靖.基于BiLSTM+Attention模型的煤矿事故隐患自动分类研究[J].煤炭科学技术,2022,50(S02):210-217. 被引量：1
3魏瑾瑞,徐晓晴.虚假评论、消费决策与产品绩效——虚假评论能产生真实的绩效吗[J].南开管理评论,2020,0(1):189-199. 被引量：31
4欧阳文静.不同真实性的网络评论对电影购买量的影响——品牌强度的调节作用[J].产业组织评论,2018,0(4):136-155.
5门士博.UGC模式下对内容营销平台的影响及监管问题分析[J].广西质量监督导报,2020(8):234-235.
6王美璎.信息安全视域下公安大数据平台建设探析[J].中国公共安全,2023(4):112-114.
7赵婧,陈蕙昕,韩斯娜.基于TAM模型探究餐饮业网络水军与消费者消费意向的关系[J].现代经济信息,2021(31):160-163.
8郑天宏,许杭杰,董黎刚.中文文本抄袭检查技术的研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):117-120.
9胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
10周英智,李伟,孙瑶,靳光华.初审中利用数据库检索论文抄袭行为[J].编辑学报,2008,20(4):319-320. 被引量：27

1李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：36
2袁晓峰.一种基于HNC理论的文本相似度算法[J].计算机时代,2014(11):40-41.
3贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
4黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
5郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
6秦新国.基于句子相似度的文档复制检测算法研究[J].现代图书情报技术,2007(11):63-66. 被引量：9
7邢长征,孙伟.一种改进的基于句子相似度的检测算法[J].计算机系统应用,2010,19(2):90-92. 被引量：1
8张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
9黄贤英,李沁东,刘英涛.结合词性的短文本相似度算法及其在文本分类中的应用[J].电讯技术,2017,57(1):78-82. 被引量：11
10周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：11

大连理工大学学报

2005年第2期

浏览历史

内容加载中请稍等...

基于语义理解的文本相似度算法被引量：80

参考文献10

二级参考文献1

共引文献99

同被引文献727

引证文献80

二级引证文献345

相关作者

相关机构

相关主题

浏览历史

基于语义理解的文本相似度算法 被引量：80

参考文献10

二级参考文献1

共引文献99

同被引文献727

引证文献80

二级引证文献345

相关作者

相关机构

相关主题

浏览历史

基于语义理解的文本相似度算法被引量：80