基于百度百科多特征信息的词汇相似度计算被引量：1

Vocabulary Similarity Computation Based on Multi Feature Information of Baidu Encyclopedia

下载PDF

导出

摘要作为自然语言理解的一项基础工作,词汇语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等。论文提出了一种新的基于百度百科词条信息的词汇相似度计算方法。该方法经由百科名片、词条正文,开放分类和相关词条四个部分的内容,分别计算出它们之间的相似性值,以此来获得一对词汇间的整体相似性。经试验证明,在Words-240数据集上,论文方法在词汇相似度计算上,准确率更高。 As a basic work of natural language understanding,lexical semantic similarity measurement has always been the focused on research.Semantic similarity measurement is an intermediate task,and it is an essential intermediate level in most natural language processing tasks.It is widely used in natural language processing,such as word sense disambiguation,information retrieval and machine translation.This paper proposes a new method for computing lexical similarity based on Baidu encyclopedia entry information.This method calculates the similarity values of encyclopedia business cards,entries text,open classification and related entries respectively,so as to obtain the overall similarity between a pair of words.Experiments show that the proposed method has a higher accuracy in word similarity calculation on Words-240 data set.

作者仲远王芳黄树成 ZHONG Yuan;WANG Fang;HUANG Shucheng(School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang 212003)

机构地区江苏科技大学计算机学院

出处《计算机与数字工程》 2020年第7期1580-1584,1736,共6页 Computer & Digital Engineering

关键词自然语言处理词汇相似度百度百科词条 Words-240 natural language processing vocabulary similarity baidu encyclopedia entry Words-240

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：175
2詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：20
3李海林,邹金串.基于分类词典的文本相似性度量方法[J].智能系统学报,2017,12(4):556-562. 被引量：6
4章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
5张小川,于旭庭,张宜浩.一种改进的基于知网的词语语义相似度算法[J].计算机应用研究,2018,35(8):2285-2288. 被引量：6
6张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量：36
7金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
8赵谦,荆琪,李爱萍,段利国.一种基于语义与句法结构的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1287-1294. 被引量：17
9陈贤武,刘道波.基于语句相似度的主观试题自动阅卷模型研究[J].武汉大学学报（工学版）,2018,51(7):654-658. 被引量：11
10曹海,孙婧,史喜斌.基于特征迭代的短文本去重算法[J].计算机工程,2015,41(12):54-57. 被引量：4

二级参考文献95

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3孟爱国,卜胜贤,李鹰,甘文.一种网络考试系统中主观题自动评分的算法设计与实现[J].计算机与数字工程,2005,33(7):147-150. 被引量：46
4郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：325
6余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
7章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
8秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
9李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
10李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105

共引文献338

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
4伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
5秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
6周文,徐国梁.翻译记忆中语句相似度计算方法的研究[J].计算机应用,2007,27(5):1210-1213. 被引量：5
7李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
8黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
9易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
10化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2

同被引文献13

1王文棋,张建波,李国栋,郑海武.国家自然科学基金申请项目人员查重方法应用和比较[J].中国科学基金,2012,26(5):288-290. 被引量：1
2奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：217
3陈宏朝,李飞,朱新华,马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88. 被引量：28
4蒋勇青,刘芳,于洋.学术文献相似性检测比对资源应用分析与建设策略探究——基于万方检测系统的实证分析[J].数字图书馆论坛,2017(12):39-44. 被引量：3
5黄思颖,蔡桂兰,徐凯,江和松,邱舟强,陈平华.基于SolrCloud的分布式科技项目查重系统[J].科技管理研究,2018,38(7):236-242. 被引量：4
6刘玉林,郭雅娟,陈锦铭,陈昊.基于自然语言处理技术的电网招标资料查重系统研制[J].电力信息与通信技术,2018,16(5):11-17. 被引量：9
7刘如,秦潇,董晓晴,吴琼.科技项目查重研究现状与发展对策[J].天津科技,2017,44(2):21-24. 被引量：3
8周育忠,陶秀杰,张自锋,韦嵘晖,杨宇亮.科技项目查重系统在企业中的实践应用[J].河南科技,2019,0(28):32-35. 被引量：2
9侯鑫鑫,朱文佳,朱莉,谢琳,刘佳.多源异构学术成果大数据的整合与揭示[J].情报理论与实践,2021,44(4):162-168. 被引量：3
10陶秀杰,周育忠,韦嵘晖,张自锋.企业科技项目申报查重系统设计与应用[J].信息系统工程,2021,34(4):92-94. 被引量：3

引证文献1

1王东,王飘,江俊鹏,李青,徐晨阳.科技项目申报书查重方法研究[J].中国科技资源导刊,2022,54(5):30-40.

1刘萍,彭小芳.基于形式概念分析的词汇相似度计算[J].数据分析与知识发现,2020,4(5):66-74.
2Charles Byers.网络设计:物联网不容忽视的中间节点[J].中国集成电路,2020,29(9):52-55.
3汪祖云,张道航,刘文平,董婉青,侯彩霞,陈荔.基于轨迹段核密度的旅游车辆轨迹聚类算法[J].测控技术,2020,39(9):108-112. 被引量：1
4周奇安,李舟军.基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法[J].中文信息学报,2020(5):82-90. 被引量：12
5余同新.浅谈乡镇防保站的巩固与发展[J].中国公共卫生管理,2000,16(5):421-422.
6向倩.基于聚类和相似度计算的陆空通话词向量评估[J].计算机技术与发展,2020,30(9):137-142.
7周凯.一种Windows10中文用户输入痕迹信息提取方法研究与实现[J].警察技术,2020(5):44-47. 被引量：2

计算机与数字工程

2020年第7期

浏览历史

内容加载中请稍等...

基于百度百科多特征信息的词汇相似度计算被引量：1

参考文献11

二级参考文献95

共引文献338

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于百度百科多特征信息的词汇相似度计算 被引量：1

参考文献11

二级参考文献95

共引文献338

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于百度百科多特征信息的词汇相似度计算被引量：1