基于词汇语义计算的文本相似度研究被引量：25

Research of text similarity based on word similarity computing

下载PDF

导出

摘要基于《知网》的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于《知网》的词汇语义计算方法来计算两篇文章向量的相关性,并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本所蕴涵概念的目的,并用实验对该方法的有效性进行了验证,提出了今后的改进方向。 The algorithm used to compute word similarity based on how-net opens out some relational information between words. Ac- cording to VSM, the algorithm was adopted to compute two texts pertinence. And the biggest matching algorithm was used to compute similarity. Experiments showed the validity of algorithm. Finally, development direction in future was presented.

作者余刚裴仰军朱征宇陈华月

机构地区重庆大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2006年第2期241-244,共4页 Computer Engineering and Design

基金重庆大学教师资助计划基金项目(2003A33)

关键词《知网》相似度计算义原匹配向量空间模型 how-net similarity computing sememe matching VSM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
2董振东董强.知网简介[M].1999[EB/OL].http://www.keenage.com.,.
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4龚劬.图论与网络最优化算法[M].重庆:重庆大学出版社,2000.87-96.
5陆汝钤.知识科学与计算科学[M].北京：清华大学出版社,2002..
6李素建.基于语义计算的语句相关度研究[J].计算机工程与应用,2002,38(7):75-76. 被引量：83

二级参考文献9

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.
5黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
6鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
7卜东波，博士学位论文，2000年
8Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页
9Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页

共引文献517

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
3蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
4李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
5蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
6王常亮,闫利华,吴曦德.基于XML的智能答疑系统研究[J].赤峰学院学报（自然科学版）,2008,24(9):86-89.
7周粉,夏幼明.一种改进的基于知网的语义相似度计算方法[J].云南大学学报（自然科学版）,2008,30(S2):215-218. 被引量：1
8孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
9杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
10李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.

同被引文献223

1芦明,李冠宇,史一民.一种面向语义网服务的本体映射框架[J].计算机应用研究,2009,26(2):620-622. 被引量：3
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3黄月.IPC与中图法编制体例特征差异[J].中国民航大学学报,2005,23(z1):277-278. 被引量：4
4董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
5段瑞雪,王小捷,孙月萍,李文峰.HDP主题模型的用户意图聚类[J].北京邮电大学学报,2011,34(S1):55-58. 被引量：6
6车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
7晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
9郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
10王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28

引证文献25

1秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
2吴柳燕.加权的布尔型文本匹配算法研究[J].柳州职业技术学院学报,2008,8(1):133-136. 被引量：3
3梁龙昀,李明.面向Web应用的语义标注方法[J].计算机工程与设计,2008,29(12):3204-3207. 被引量：1
4聂规划,付志超,陈冬林,刘平峰.基于本体的论文复制检测系统[J].计算机工程,2009,35(6):79-81. 被引量：9
5赵俊杰.学术论文抄袭检测方法研究综述[J].湖南工业大学学报（社会科学版）,2010,15(1):157-159. 被引量：3
6赖院根,曾建勋.期刊论文与专利文献的整合框架研究[J].图书情报工作,2010,54(4):109-112. 被引量：20
7贺超波,陈启买.基于本体的Web服务发现方法研究[J].计算机工程与设计,2010,31(7):1421-1423. 被引量：4
8马续补,郭菊娥.基于《知网》语义相似度的企业事实主题诊断研究[J].情报杂志,2010,29(5):54-57. 被引量：1
9姜怡,姜欣,方淼.基于互文性度量的文本翻译索引[J].计算机工程与设计,2010,31(15):3490-3493. 被引量：6
10田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：175

二级引证文献346

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3陆伟,罗卓然,李信.科技创新评价研究进展[J].情报学进展,2022(1):158-187. 被引量：2
4马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
5熊回香,薛姣,李青维,夏佩.视频信息的对象关联交叉检索研究[J].图书情报工作,2011,55(S2):295-299. 被引量：1
6伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
7窦永香,赵捧未,秦春秀.基于本体的对等网语义检索系统[J].现代图书情报技术,2007(12):25-29. 被引量：6
8李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8):1966-1968. 被引量：9
9贾君枝,赵文娟,王东元.汉语框架网络知识库的语义角色特征识别[J].图书情报工作,2009,53(17):110-113. 被引量：4
10赵凡.基于共词分析的学科主题动态跟踪相似方法探讨[J].情报杂志,2009,28(9):35-40. 被引量：6

1史俊冰.一种基于《知网》的词语相似度计算方法[J].太原学院学报（自然科学版）,2017,35(1):69-72.
2薛慧芳.基于《知网》的词语相似度计算[J].商情,2011(18):136-136.
3张超,高雪霞,梁俊峰.基于HowNet获取数据库系统知识库的研究[J].喀什师范学院学报,2008,29(6):62-64.
4赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
5苏伟峰,李绍滋,李堂秋.一个基于概念的中文文本分类模型[J].计算机工程与应用,2002,38(6):193-195. 被引量：17
6苗德成.基于范畴论的共享系统数据模型研究综述[J].韶关学院学报,2015,36(10):15-20.
7向永红,李甦,袁勇,林毓材,赵景秀.串的最大匹配算法[J].计算机工程与科学,2003,25(4):72-74. 被引量：4
8柏家球.专家系统的逻辑基础[J].天津大学学报,1990,23(3):22-27. 被引量：1
9郑德权.汉语自动分词最大匹配算法的改进[J].中文信息,1998,15(12):101-101. 被引量：2
10王娜,庞艳霞,吴月萍.嵌入式Internet下TCP/IP协议栈中ARP的设计与实现[J].自动化技术与应用,2009,28(4):30-31. 被引量：1

计算机工程与设计

2006年第2期

浏览历史

内容加载中请稍等...

基于词汇语义计算的文本相似度研究被引量：25

参考文献6

二级参考文献9

共引文献517

同被引文献223

引证文献25

二级引证文献346

相关作者

相关机构

相关主题

浏览历史

基于词汇语义计算的文本相似度研究 被引量：25

参考文献6

二级参考文献9

共引文献517

同被引文献223

引证文献25

二级引证文献346

相关作者

相关机构

相关主题

浏览历史

基于词汇语义计算的文本相似度研究被引量：25