基于可靠词汇语义约束的词语向量表达修正研究被引量：2

Refining Word Vector Representation with Reliable Lexical Semantic Constraints

下载PDF

导出

摘要词语向量表达(word vector representation)是众多自然语言处理(natural language processing,NLP)下游应用的基础。已有研究采用各种词汇分类体系提供的词汇语义约束,对海量语料训练得到的词向量进行修正,改善了词向量的语义表达能力。然而,人工编制或者半自动构建的词汇分类体系普遍存在语义约束可靠性不稳定的问题。该文基于词汇分类体系与词向量之间、以及异构词汇分类体系之间的交互确认,研究适用于词语向量表达修正的可靠词汇语义约束提炼方法。具体上,对于词汇分类体系提供的同义词语类,基于词语向量计算和评估类内词语的可靠性。在其基础上,通过剔除不可靠语义约束机制避免词语类划分潜在不够准确的词语的错误修正;通过不同词汇分类体系的交互确认恢复了部分误剔除的语义约束;并通过核心词约束传递机制避免原始词向量不够可靠的词语在词向量修正中的不良影响。该文采用NLPCC-ICCPOL 2016词语相似度测评比赛中的PKU 500数据集进行测评。在该数据集上,将该文提出的方法提炼的可靠词汇语义约束应用到两个轻量级后修正的研究进展方法,修正后的词向量都获得更好的词语相似度计算性能,取得了0.649 7的Spearman等级相关系数,比NLPCC-ICCPOL 2016词语相似度测评比赛第一名的方法的结果提高25.4%。 Word vector representation is the basis for various natural language processing(NLP)systems.Studies have shown that word vectors trained from large corpora can be refined by semantic constraints in various lexical taxonomies.Based on lexicon-vectors interaction and the heterogeneous taxonomies'interaction,we present the method of extracting reliable lexical semantic constraints to better refine word vectors representation.In this method,the word class knowledge from lexical taxonomies is assessed for reliability based on word vectors'calculation.Experimental results on PKU 500 from the NLPCC-ICCPOL 2016 shared task on Chinese word similarity measurement show that the proposed method outperforms in the word similarity calculation with a Spearman score 0.649 7,which gains 25.4%improvement comparing to the best result in the shared task.

作者梁泳诗黄沛杰黄培松杜泽峰 LIANG Yongshi;HUANG Peijie;HUANG Peisong;DU Zefeng(College of Malhenvilics and Infornjatics.South China Agricultural University.Guangzhou 510642.China)

机构地区华南农业大学数学与信息学院

出处《中文信息学报》 CSCD 北大核心 2019年第1期56-67,共12页 Journal of Chinese Information Processing

基金国家自然科学基金(71472068)

关键词词语向量表达修正可靠词汇语义约束核心词约束传递 word vector representation refinement reliable lexical semantic constraints transmission mechanism of core words

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106

二级参考文献7

1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
2刘群李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002..
3Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance [A].In: Proceedings of the First International Conference on Recent Advanced in NLP [C]. 1995.
4Dekang Lin. An Information-Theoretic Definition of Similarity Semantic distance in WordNet [A]. In:Proceedings of the Fifteenth International Conference on Machine Learning [C]. 1998.
5HowNet [R]. HowNet's Home Page. http://www.keenage. com.
6BUDANITSKY, A. AND HIRST, G. Semantic distance in WordNet : An experimental, application-oriented evaluation of five measures [A]. In: Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistics[C]. 2001.
7同义词词林[R]．http：／／www．ir—lab．org／．

共引文献105

1张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
2吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
3左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
4张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
5曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
6刘卫红.基于非功能语义的语义Web服务匹配方法研究[J].微型电脑应用,2008,24(7):20-22.
7江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
8郑逢强,林磊,刘秉权,孙承杰.《知网》在命名实体识别中的应用研究[J].中文信息学报,2008,22(5):97-101. 被引量：11
9裘江南,罗志成,王延章.基于中文语义词典的语义相关度方法比较研究[J].情报理论与实践,2008,31(5):715-719. 被引量：5
10宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41

同被引文献25

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2何云,李彤,王炜,李响,兰微.一种面向软件特征定位问题的语义相似度集成方法[J].计算机研究与发展,2019,56(2):394-409. 被引量：5
3纪明宇,王晨龙,安翔,牟伟晔.面向智能客服的句子相似度计算方法[J].计算机工程与应用,2019,55(13):123-128. 被引量：15
4何力,周兰江,周枫,郭剑毅.基于双向长短期记忆神经网络的老挝语分词方法[J].计算机工程与科学,2019,41(7):1312-1317. 被引量：17
5关晓菡,韩建辉.基于双向字交互卷积网络的句子相似度计算[J].计算机工程与设计,2019,40(8):2259-2264. 被引量：3
6朱文跃,刘炜,刘宗田.一种综合事件本体相似度计算方法[J].计算机应用研究,2019,36(8):2332-2337. 被引量：5
7翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计,2019,40(10):2867-2873. 被引量：14
8许飞翔,叶霞,李琳琳,曹军博,王馨.基于SA-BP算法的本体概念语义相似度综合计算[J].计算机科学,2020,47(1):199-204. 被引量：12
9郑志蕴,吴建萍,李钝,刘允,米高扬.一种基于短文本相似度计算的知识子图融合方法[J].小型微型计算机系统,2020,41(1):6-11. 被引量：7
10高玉娟,赵小东.基于语料库的中国英语专业学生英语形容词使用量化分析[J].外语研究,2020,37(2):24-31. 被引量：10

引证文献2

1吴沛瑾.基于聚类算法的英语动词词形分类方法研究[J].赤峰学院学报（自然科学版）,2022,38(6):22-26.
2高慧星,杨蕊.改进ISA关系的网络本体语义相似度仿真[J].计算机仿真,2022,39(12):469-473.

1赵晓晓,周治平.结合稀疏表示与约束传递的半监督谱聚类算法[J].智能系统学报,2018,13(5):855-862. 被引量：6
2刘平,李冠颖,赵霞.大数据时代英语写作教学创新研究——基于2017年百万同题英语写作大数据报告[J].中医教育,2018,37(6):30-33. 被引量：3
3余冲,李晶,孙旭东,傅向华.基于词嵌入与概率主题模型的社会媒体话题识别[J].计算机工程,2017,43(12):184-191. 被引量：13
4李佳静,闫宏飞,于珑雪,孟涛.TML认知计算平台[J].情报工程,2018,4(5):28-37.
5张泽的,刘东,张皓然,李光轩.基于PSO-AHP与粗集理论组合赋权的灌溉用水效率评价[J].节水灌溉,2018(10):59-63. 被引量：8
6张建华.知己知彼精备考化学二轮提实效[J].考试与招生,2019,0(1):32-34.
7缪玉霞.基于核心素养的物理教学实践[J].课程教育研究,2018(50):158-159.
8孟琦斌,任小宇.基于遗传算法和ExcelVBA自动生成变电站全年巡视计划[J].上海电力,2018,0(6):20-24.
9张治荣.推进创新素养教育向纵深发展[J].宁夏教育,2019,0(1):6-8. 被引量：7
10Yu Shujun.Room for Optimism[J].Beijing Review,2019,62(5):34-35.

中文信息学报

2019年第1期

浏览历史

内容加载中请稍等...

基于可靠词汇语义约束的词语向量表达修正研究被引量：2

参考文献1

二级参考文献7

共引文献105

同被引文献25

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于可靠词汇语义约束的词语向量表达修正研究 被引量：2

参考文献1

二级参考文献7

共引文献105

同被引文献25

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于可靠词汇语义约束的词语向量表达修正研究被引量：2