基于语义构词的汉语词语语义相似度计算被引量：3

Semantic Word-formation Based Chinese Word Similarity Computing

下载PDF

导出

摘要汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以"语素概念"为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型"取样词对"上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。 Chinese word similarity computing plays an important role in the Chinese information processing. Based on the notion of character-orientation, Chinese semantic word-formation knowledge, including word POS, word-formation pattern and morphemic concepts, is employed to compute Chinese word similarity. This lexical knowledge rep resentation is simple, intuitive and easy to expand and the model is straight-forward, with characteristics and param eters adopted as less as possible. Experimental results show that the approach is promising for the typical sampling word pair. Also, the numerical values of similarity are more in line with human cognition and present a reasonable distribution of the global data.

作者康司辰刘扬

机构地区北京大学中国语言文学系北京大学计算语言教育部重点实验室北京大学计算语言学研究所

出处《中文信息学报》 CSCD 北大核心 2017年第1期94-101,111,共9页 Journal of Chinese Information Processing

基金国家社科基金(16BYY137) 国家社科基金(12&ZD119) 国家重点基础研究发展计划资助项目(2014CB340504)

关键词词语语义相似度计算语义构词词义知识表示语素概念 Chinese word similarity computing Chinese semantic word-formation lexical knowledge representation morphemic concepts

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：22
2王小林,王东,杨思春,邰伟鹏,郑啸.基于《知网》的词语语义相似度算法[J].计算机工程,2014,40(12):177-181. 被引量：16
3苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].语言文字应用,1998(3):86-91. 被引量：48
4李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
5张瑞霞,朱贵良,杨国增.基于知识图的汉语词汇语义相似度计算[J].中文信息学报,2009,23(3):116-120. 被引量：11
6刘杰,郭宇,汤世平,樊孝忠.基于《知网》2008的词语相似度计算[J].小型微型计算机系统,2015,36(8):1728-1733. 被引量：7
7蔡东风,白宇,于水,叶娜,任晓娜.一种基于语境的词语相似度计算方法[J].中文信息学报,2010,24(3):24-28. 被引量：12
8苏宝荣.汉语复合词结构义对构词语素意义的影响[J].语文研究,2013(1):1-4. 被引量：10
9张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量：36
10江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109

二级参考文献85

1张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
2丁芹.基于格式语义格的自动标引和词相似度计算[J].情报理论与实践,2004,27(4):363-366. 被引量：6
3夏天,樊孝忠,刘林,骆正华.基于ALICE的汉语自然语言接口[J].北京理工大学学报,2004,24(10):885-889. 被引量：11
4吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
5袁晓峰.《知网》义原相似度计算的研究[J].辽宁大学学报（自然科学版）,2011,38(4):358-361. 被引量：5
6郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
7朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
8章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
9秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
10刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73

共引文献323

1黎姿,潘红,马雪,赵慧.《更路簿》地名翻译传播在百度百科平台中的机遇与挑战[J].现代英语,2024(3):109-111.
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
4刘倩.对外汉语综合课词汇分类教学的策略[J].南京晓庄学院学报,2004,20(3):118-122. 被引量：5
5左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
6徐艳华.新词语结构分析在自动分词中的作用[J].烟台职业学院学报,2007,13(4):57-63.
7张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
8曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
9张琦,江新.中级和高级汉语学习者语素意识与阅读关系的研究[J].华文教学与研究,2015(3):11-17. 被引量：18
10梁源.二字短语凝固度分级考察[J].语言文字应用,2000(2):21-33. 被引量：4

同被引文献24

1苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].世界汉语教学,1998,12(2):8-13. 被引量：89
2徐通锵.核心字和汉语的语义构辞法[J].语文研究,1997(3):2-16. 被引量：29
3袁毓林.自然语言理解的语言学假设[J].中国社会科学,1993(1):189-206. 被引量：10
4符淮青.词义和构成词的语素义的关系[J].辞书研究,1981(1):98-110. 被引量：51
5王治敏,俞士汶.汉语名词短语隐喻识别研究[J].语言文字应用,2007(2):142-142. 被引量：3
6董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
7李晋霞,李宇明.论词义的透明度[J].语言研究,2008,28(3):60-65. 被引量：56
8田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
9王洪君.汉语语法的基本单位与研究策略[J].语言教学与研究,2000(2):10-18. 被引量：30
10刘丹丹,彭成,钱龙华,周国栋.《同义词词林》在中文实体关系抽取中的作用[J].中文信息学报,2014,28(2):91-99. 被引量：26

引证文献3

1刘扬,林子,康司辰.汉语的语素概念提取与语义构词分析[J].中文信息学报,2018,32(2):12-21. 被引量：12
2杨延娇,赵国涛,王丕栋.基于语义与情感的句子相似度计算方法[J].计算机工程与应用,2021,57(16):151-158. 被引量：1
3陈龙,饶琪,刘扬.汉语词的非字面义的表示与应用[J].中国科学：信息科学,2019,49(8):1005-1018. 被引量：4

二级引证文献14

1马天欢.语用视角下复述句生成方式的类型考察[J].中文信息学报,2021,35(10):32-38.
2王自正,王长来,茅志成,王书奎,潘淮宁,戴国强,吴建中,陈胜,邬堂春.高温中暑患者血浆中热应激蛋白70与细胞因子的关系[J].中华预防医学杂志,2000,34(1):11-13. 被引量：5
3莫李生.甲状腺血供与甲状腺疾病临床表现的关系[J].广东医学,2000,21(5):416-417. 被引量：1
4林倩,文华婷,杨静,刘鑫,林欢,王鸿吉,苏劲松.中文词语内部层次结构标注语料库的建立[J].厦门大学学报（自然科学版）,2020,59(2):225-230. 被引量：5
5康司辰,虞梦夏,刘扬.基于平行周遍原则的汉语未登录词的知识表示与预测[J].中文信息学报,2020,34(8):23-31. 被引量：3
6何人可,王玥虹,马超民.家用服务机器人人机交互亲密度意象研究[J].包装工程,2021,42(6):77-82. 被引量：10
7杨泰康,杨婉霞,刘燕,胡智喻,王巧珍,徐明杰.基于双向多层转换编解码的诗自动生成[J].软件工程,2021,24(4):15-21.
8汤兆平,聂欣,王振宇,孙剑萍.情景-应对模式下考虑软时间窗的高铁应急资源调度优化[J].中国安全生产科学技术,2022,18(3):32-38. 被引量：4
9郑婳,刘扬,殷雅琦,王悦,代达劢.基于词信息嵌入的汉语构词结构识别研究[J].中文信息学报,2022,36(5):31-40. 被引量：1
10王悦,刘扬,梁启亮,王涵思.汉语语义构词的资源建设与计算评估[J].语言文字应用,2023(4):105-117.

1田元贺,刘扬.汉语未登录词的词义知识表示及语义预测[J].中文信息学报,2016,30(6):26-34. 被引量：7
2张孝存.字本位和语本位——谈键盘输入和“转换系统”[J].中文信息,1996,13(5):56-56.
3吉志薇,冯敏萱.面向普通未登录词理解的二字词语义构词研究[J].中文信息学报,2015,29(5):63-68. 被引量：9
4崔竹朝.简析复合词词义与语素义的关系[J].文教资料,2009(33):25-26.
5郭磊,张春红,吴黎黎.基于用户感性认知的产品造型设计[J].机电产品开发与创新,2016,29(1):31-33.
6蒋服生,程建新.指纹识别技术与产品创新设计[J].商场现代化,2010(29):11-12. 被引量：1
7陈刚,刘扬.基于特征序列的语义分类体系的自动构建[J].中文信息学报,2015,29(3):52-57.
8任丽君.以情为导以理教学——基于学生感性认知下的初中信息教学初探[J].学生之友（小学版）,2013(22):94-94.
9周雷,李颖,石崇德.汉语科技词汇构词过程影响因素研究[J].情报工程,2016,2(1):114-122. 被引量：2
10娄育,李康澄.“汉语与汉字关系”问题再讨论——“汉语与汉字关系”国际学术研讨会综述[J].励耘语言学刊,2009(1):230-246. 被引量：1

中文信息学报

2017年第1期

浏览历史

内容加载中请稍等...

基于语义构词的汉语词语语义相似度计算被引量：3

参考文献12

二级参考文献85

共引文献323

同被引文献24

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于语义构词的汉语词语语义相似度计算 被引量：3

参考文献12

二级参考文献85

共引文献323

同被引文献24

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于语义构词的汉语词语语义相似度计算被引量：3