多特征结合的词语相似度计算模型被引量：4

Word Similarity Computation Model of Multi-features Combination

下载PDF

导出

摘要词语相似度计算在基于实例的机器翻译、信息检索、自动问答系统等有着广泛的应用。词语相似度的计算一般都是在基于《知网》的义原的基础上,通过计算概念之间的相似度来获取。文中在综合考虑义原距离、义原深度、义原宽度、义原密度和义原重合度的基础上,利用多特征结合的方法计算词语相似度。为了验证算法的合理性,利用Miller和Charles文献给出的基准词作为测试集合,将计算得到的词语相似度的值与专家值进行比较,计算其皮尔逊相关系数,计算结果达到了0.852。实验结果表明多特征结合的词语相似度计算和专家评定的词语相似度计算非常吻合。 Semantic similarity computing has been widely used in machine translation based on example,information retrieval and automatic question answering systems. Word similarity computation is generally based on the original in ＂ HowNet＂,through calculating the degree of similarity between concepts to obtain. In this paper,in consideration of the original distance,depth,width,density and contact ratio,use the method with multi- features to compute word similarity. In order to verify the rationality of the algorithm,using the benchmark of words given by M iller and Charles literature as a test set,make a comparison between the word similarity computation values and expert value,calculating the Pearson correlation coefficient,the calculation results is 0. 852. Experimental result showthat the word similarity computation of multi- features combination is identical with expert estimation.

作者张培颖房龙云

机构地区中国石油大学(华东)计算机与通信工程学院哈尔滨工业大学深圳研究生院计算机科学与技术学院

出处《计算机技术与发展》 2014年第12期37-40,共4页 Computer Technology and Development

基金中央高校基本科研业务费专项资金(13CX02031A)

关键词词语相似度知网同义词词林语义距离 word similarity HowNet Tongyici Cilin semantic distance

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
2刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量：34
3安建成,武俊丽.基于语义树的概念语义相似度计算方法研究[J].微电子学与计算机,2011,28(1):138-141. 被引量：10
4冉婕,孙瑜,漆丽娟.基于本体的概念相似度计算及其应用[J].微型机与应用,2010,29(11):14-16. 被引量：3
5王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38
6Rubenstein H, Goodenough J B. Contextual correlates of syn- onymy [ J ]. Communications of the ACM, 1965,8 ( 10 ) : 627 - 633.
7Miller G A, Charle W G. Contextual correlates of semantic similarity[ J ]. Language and Cognitive Processes, 1991,6 (1) :1-28.
8Liu Hongzhe, Bao Hong, Xu De. Concept vector for similarity measurement based on hierarchical domain structure [ J ]. Journal of Computing and Informatics ,2011,30 : 1001 - 1021.
9刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
10Liu Hongzhe, Bao Hong, Xu De. Concept vector for semantic similarity and relatedness based on WordNet structure [ J ]. Journal of Systems and Software ,2012,85 (2) :370-381.

二级参考文献93

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
3王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
4张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
5吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
6徐德智,郑春卉,K. Passi.基于SUMO的概念语义相似度研究[J].计算机应用,2006,26(1):180-183. 被引量：56
7章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
8张选平,蒋宇,袁明轩,马琮,梁平.一种基于概念的信息检索查询扩展[J].微电子学与计算机,2006,23(4):110-114. 被引量：13
9王进,陈恩红,施德明,张振亚.一种基于语义相似度的信息检索方法[J].模式识别与人工智能,2006,19(6):696-701. 被引量：15
10秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30

共引文献272

1裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
2王凯,周建国,夏德麟,晏蒲柳,董伟钛.基于支持向量机的中文文本自动分类研究[J].计算机应用研究,2005,22(11):61-63. 被引量：3
3钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设计与实现[J].计算机应用研究,2006,23(12):260-262. 被引量：9
4秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
5商鹏,王晓琳.基于用户上下文的新闻服务机制研究[J].计算机工程与设计,2007,28(4):955-958.
6张映海,何中市,陈永锋.搜索引擎结果中Web文档的排序研究[J].计算机与数字工程,2007,35(2):126-129. 被引量：2
7徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
8徐德智,C.Onyango,王怀民.上位本体中语义相似度的计算及其实现[J].计算技术与自动化,2007,26(2):50-52.
9夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
10许可,迟名远,王成友,蔡宣平.基于语料库相似度的语料选择[J].计算机工程,2007,33(17):231-233.

同被引文献38

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
3Gai-TaiHuang,Hsiu-HsenYao.Chinese Question-Answering System[J].Journal of Computer Science & Technology,2004,19(4):479-488. 被引量：2
4吴笑凡,周良,张磊,丁秋林.分布式主题地图合并中的TOM算法[J].武汉大学学报（工学版）,2006,39(5):131-136. 被引量：9
5刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
6裴婧,包宏.汉语句子相似度计算在FAQ中的应用[J].计算机工程,2009,35(17):46-48. 被引量：24
7魏凯斌,冉延平,余牛.语义相似度的计算方法研究与分析[J].计算机技术与发展,2010,20(7):102-105. 被引量：15
8田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
9冉婕,孙瑜.语义检索中的词语相似度计算研究[J].计算机技术与发展,2011,21(4):94-97. 被引量：8
10毛先领,李晓明.问答系统研究综述[J].计算机科学与探索,2012,6(3):193-207. 被引量：59

引证文献4

1李玲,何聚厚.基于语义依存分析的句子相似性度量算法及应用研究[J].计算机应用与软件,2017,34(7):244-248. 被引量：2
2王娜娜,张顺香.基于句法与语义特征分析的朋友关系挖掘[J].阜阳师范学院学报（自然科学版）,2019,36(3):55-59.
3郑志蕴,吴建萍,李钝,刘允,米高扬.一种基于短文本相似度计算的知识子图融合方法[J].小型微型计算机系统,2020,41(1):6-11. 被引量：7
4杨泉.基于遗传算法的词语语义相似度计算研究[J].计算机技术与发展,2021,31(2):8-13. 被引量：5

二级引证文献14

1焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
2周艳平,李金鹏,蔡素.基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J].计算机应用与软件,2019,36(8):65-68. 被引量：12
3马智勤,廖雪花,邓威,肖文超.基于分布式ElasticSearch相似内容比对算法研究[J].计算机与数字工程,2020,48(12):2843-2849. 被引量：5
4孙留倩,魏玉良,王佰玲.基于图卷积网络的多源本体相似度计算方法[J].网络与信息安全学报,2021,7(5):149-155. 被引量：3
5杨泉.知识本体与词向量结合的词义相似度强化学习计算方法[J].重庆理工大学学报（自然科学）,2022,36(1):128-135. 被引量：3
6左佳.英语机器翻译机器人文本信息自动上传系统设计[J].自动化与仪器仪表,2022(4):255-259. 被引量：1
7陈雨晖,皮洲,姜滕圣,李响,王震,奚雪峰,吴宏杰,付保川.基于知识图谱的中文地址匹配方法研究[J].计算机工程与应用,2022,58(14):306-312. 被引量：1
8高慧星,杨蕊.改进ISA关系的网络本体语义相似度仿真[J].计算机仿真,2022,39(12):469-473.
9刘玉威,曹民,冯浩甲.基于自然语言处理的CNAS认可准则自动对标系统[J].电子科技,2023,36(5):28-33.
10张国防,王鑫,徐建民.基于主题词共现的文档非对称关系量化研究[J].数据分析与知识发现,2023,7(3):110-120. 被引量：1

1刘洪洁.聚焦Oracle 11g[J].程序员,2007(9):120-121.
2赵春雷,史蒂芬.斯托加茨.用数字说谎——评披露数字欺骗的坏手法《假证明》一书[J].世界科学,2010(11):43-44.
3王鑫,李晓佳,吴飞,龚钿选.基于边缘灰度相关性分析规则破碎纸条复原[J].未来英才,2016,0(4):2-2.
4注重成本的奢华——2010巴黎高级定制趋势分析[J].中国制衣,2010(3):32-36.
5刘凤春,张春英,谷建涛.基于FAHP的专家评定系统的设计与实现[J].河北理工学院学报,2006,28(2):66-70. 被引量：3
6Prof. Charles Fairhurst[J].Journal of Rock Mechanics and Geotechnical Engineering,2013,5(1).
7易顺明.基于Python的推荐系统相似性分析和协同过滤[J].沙洲职业工学院学报,2015,18(1):3-7. 被引量：2
8甲骨文公司发布中间件战略[J].CAD/CAM与制造业信息化,2008(7):3-3.
9申利民,杨益良,陈真.考虑相似比率的Web服务QoS协同预测[J].计算机集成制造系统,2016,22(1):144-154. 被引量：5
10李慧,马小平,胡云,施珺.融合上下文信息的社会网络推荐系统[J].智能系统学报,2015,10(2):293-300. 被引量：4

计算机技术与发展

2014年第12期

浏览历史

内容加载中请稍等...

多特征结合的词语相似度计算模型被引量：4

参考文献12

二级参考文献93

共引文献272

同被引文献38

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

多特征结合的词语相似度计算模型 被引量：4

参考文献12

二级参考文献93

共引文献272

同被引文献38

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

多特征结合的词语相似度计算模型被引量：4