基于依存适配度的知识自动获取词义消歧方法被引量：11

Word Sense Disambiguation Based on Dependency Fitness with Automatic Knowledge Acquisition

下载PDF

导出

摘要针对困扰词义消歧技术发展的知识匮乏问题,提出一种基于依存适配度的知识自动获取词义消歧方法.该方法充分利用依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义.该方法在SemEval 2007的Task#7粗粒度词义消歧任务上取得了74.53%的消歧正确率;在不使用任何人工标注语料的无监督和基于知识库的同类方法中,取得了最佳的消歧效果. A word sense disambiguation （WSD） method based on dependency fitness is proposed to solve the problem of knowledge acquisition bottleneck in the development of WSD techniques. The method achieves automatic knowledge acquisition in WSD by taking full advantage of dependency parsing. First, a large-scale corpus is parsed to obtain dependency cells whose statistics information is utilized to build a dependency knowledge base （DKB）; then, the ambiguous sentence is parsed to obtain the dependency constraint set （DCS） of ambiguous words. For each sense of ambiguous word, sense representative words （SRW） are obtained through WordNet. Finally, based on DKB, dependency fitness of all kinds of SRW on DCS is computed to judge the right sense. Evaluation is performed on coarse-grained English all-words task dataset of SemEval 2007. Compared with unsupervised and knowledge-based methods which don＇t utilize any sense-annotated corpus, the proposed method yields state-of-the-art performance with F1-measure of 74.53%.

作者鹿文鹏黄河燕

机构地区北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心山东轻工业学院理学院

出处《软件学报》 EI CSCD 北大核心 2013年第10期2300-2311,共12页 Journal of Software

基金国家自然科学基金(61132009) 国家重点基础研究发展计划(973)(2013CB329303)

关键词词义消歧依存句法分析知识获取依存适配度 word sense disambiguation dependency parsing knowledge acquisition dependency fitness

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
2王瑞琴,孔繁胜,潘俊.基于WordNet的无导词义消歧方法[J].浙江大学学报（工学版）,2010,44(4):732-737. 被引量：6
3吴云芳.词义消歧研究:资源、方法与评测[J].当代语言学,2009,11(2):113-123. 被引量：8

二级参考文献115

1宋余庆,罗永刚,孙志挥.应用主分量分析与粗糙集处理的特征提取[J].计算机工程与应用,2004,40(22):48-50. 被引量：7
2黄昌宁,童翔.汉语真实文本的语义自动标注[J].语言文字应用,1993(4):18-25. 被引量：7
3卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
4黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
5吴云芳,段慧明,俞士汶.动词对宾语的语义选择限制[J].语言文字应用,2005(2):121-128. 被引量：18
6卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
7吴云芳,俞士汶.信息处理用词语义项区分的原则和方法[J].语言文字应用,2006(2):126-133. 被引量：30
8吴云芳,金澎,郭涛.基于词典属性特征的粗粒度词义消歧[J].中文信息学报,2007,21(2):3-8. 被引量：9
9陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
10Agirre, E. and P. Edmonds, eds. 2006. Word Sense Disambiguation: Algorithms, Applications and Trends. Amsterdam: Kluwer.

共引文献37

1刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
2王博,杨沐昀,李生,赵铁军.中文全词消歧在机器翻译系统中的性能评测[J].自动化学报,2008,34(5):535-541. 被引量：6
3范冬梅,卢志茂,张汝波,潘树燊.基于信息增益改进贝叶斯模型的汉语词义消歧[J].电子与信息学报,2008,30(12):2926-2929. 被引量：8
4吴云芳.词义消歧研究:资源、方法与评测[J].当代语言学,2009,11(2):113-123. 被引量：8
5王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20(8):2138-2152. 被引量：17
6刘磊,曹存根,张春霞,田国刚.概念空间中上下位关系的意义识别研究[J].计算机学报,2009,32(8):1651-1661. 被引量：14
7袁健,张劲松,马良.二次回溯中文分词方法[J].计算机应用研究,2009,26(9):3321-3323. 被引量：3
8刘商飞,张志祥.基于改进的Bayes判别法的中文多义词消歧[J].计算机与数字工程,2009,37(10):32-35. 被引量：3
9李旭,刘国华,张东明.一种改进的汉语全文无指导词义消歧方法[J].自动化学报,2010,36(1):184-187. 被引量：6
10雷雪梅,王大亮,田中贵秋,曾广平.基于深层特征抽取的日文词义消歧系统[J].北京科技大学学报,2010,32(2):263-269. 被引量：1

同被引文献64

1朱雪峰,金芝.关于软件需求中的不一致性管理[J].软件学报,2005,16(7):1221-1231. 被引量：24
2施海虎,邢宣宇,李冬梅.面向主题会话的扩展语义框架[J].中文信息学报,2005,19(5):44-51. 被引量：3
3罗贝,吴洁,曹存根,邵志清.从文本中获取植物知识方法的研究[J].计算机科学,2005,32(10):6-13. 被引量：13
4卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
5魏伟.汉语离合词研究综述[J].锦州医学院学报（社会科学版）,2006,4(4):80-83. 被引量：4
6NAVIGLI R. Word sense disambiguation: a survey [ J]. ACM Com- puting Surveys, 2009, 41(2) : 1 -69.
7CHAN Y S, NG H T. Scaling up word sense disambiguation via par- allel texts[ C]//AAAI 2005: Proceedings of the 20th National Con- ference on Artificial Intelligence. Menlo Park: AAAI Press, 2005, 3:1037 - 1042.
8PILEHVAR M T, JURGENS D, NAVIGLI R. Align, disambignate and walk: a unified approach for measuring semantic similarity [ C]//Proceedings of the 51 st Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computa- tional Linguistics, 2013, 1:1341 - 1351.
9NAVIGLI R, PONZETTO S P. Joining forces pays off: Multilingnal joint word sense disambiguation[ C]// Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg: Asso- ciation for Computational Linguistics, 2012:1399 - 1410.
10STEVENSON M, AGIRRE E, SOROA A. Exploiting domain infor- mation for word sense disambiguation of medical documents[ J]. Journal of the American Medical Informatics Association, 2012, 19 (2) : 235 - 240.

引证文献11

1杨陟卓.基于上下文语境的词义消歧方法[J].计算机应用,2015,35(4):1006-1008. 被引量：4
2张振景,李新福,田学东,王凯.基于SVM的离合词词义消歧[J].计算机科学,2016,43(2):239-244. 被引量：4
3韩永花,雷玉霞,陈娟,王祥德.多框架知识的不一致性检测及其修正算法[J].计算机工程与应用,2016,52(23):94-97. 被引量：1
4杨陟卓.基于上下文翻译的有监督词义消歧研究[J].计算机科学,2017,44(4):252-255. 被引量：11
5张宜浩,刘智,朱常鹏.融合距离度量和高斯混合模型的中文词义归纳模型[J].计算机科学,2017,44(8):265-269. 被引量：2
6史兆鹏,邹徐熹,向润昭.基于依存句法分析的多特征词义消歧[J].计算机工程,2017,43(9):210-213. 被引量：12
7谭红叶,武宇飞.汉语阅读理解中词义判断题的解答研究[J].计算机科学,2018,45(B06):72-74. 被引量：4
8Wenpeng Lu,Fanqing Meng,Shoujin Wang,Guoqiang Zhang,Xu Zhang,Antai Ouyang,Xiaodong Zhang.Graph-Based Chinese Word Sense Disambiguation with Multi-Knowledge Integration[J].Computers, Materials & Continua,2019(7):197-212. 被引量：1
9张春祥,周雪松,高雪瑶.一种循环神经网络的词义消歧方法[J].哈尔滨理工大学学报,2020,25(1):80-85. 被引量：1
10周国民,宣鑫乐,沈佳琪,陈光宣.基于实体关联的消歧算法研究[J].中国电子科学研究院学报,2020,15(3):271-277. 被引量：2

二级引证文献39

1史兆鹏,邹徐熹,向润昭.基于依存句法分析的多特征词义消歧[J].计算机工程,2017,43(9):210-213. 被引量：12
2周建设,罗茵,陈炳哲.句法主语的主题表现力研究[J].语言文字应用,2018(1):61-70. 被引量：2
3王浩茂,梁铮,周小茜,罗凌云.基于邻近概念信息的FMA本体概念名消歧法[J].医学信息学杂志,2018,39(3):60-64.
4谭红叶,武宇飞.汉语阅读理解中词义判断题的解答研究[J].计算机科学,2018,45(B06):72-74. 被引量：4
5闫昱姝,雷玉霞.多源文本知识融合算法分析[J].软件导刊,2018,17(5):62-64. 被引量：3
6李国佳,赵莹地,郭鸿奇.一种基于多义词向量表示的词义消歧方法[J].智能计算机与应用,2018,8(4):52-56. 被引量：4
7葛运东,陈洪梅,姚建民.自然语言处理的技术和产业应用现状与趋势分析[J].产业与科技论坛,2019,0(17):113-114. 被引量：6
8涂锦宇,朱敏.基于依存语法的祈使句分类研究[J].计算机应用与软件,2019,36(2):279-283. 被引量：1
9唐善成,马付玉,张镤月,陈熊熊.采用Seq2Seq模型的非受限词义消歧方法[J].西北大学学报（自然科学版）,2019,49(3):351-355. 被引量：5
10赵志滨,石玉鑫,李斌阳.基于句法分析与词向量的领域新词发现方法[J].计算机科学,2019,46(6):29-34. 被引量：14

1苗祥,刘业政,孙春华.领域同义特征词的统计规律及其在情感分析上的应用研究[J].计算机应用研究,2014,31(11):3333-3336. 被引量：2
2拒绝跟风两款非主流小本试用[J].电脑迷,2009(11):39-39.
3梁超,吕钊,顾君忠.基于SVM的中文类比检索方法[J].计算机科学,2014,41(5):111-115. 被引量：1
4郭丽.浅析SQL Server的数据完整性实现技术[J].武汉市教育科学研究院学报,2006,0(4):61-63.
5王雯,徐焕良.基于本体驱动的叙词表词间关系可视化系统的研究与实现[J].图书情报工作,2009,53(10):121-125. 被引量：4
6李伟楠,李翰超,石文昌.基于信息流源的访问控制研究[J].计算机科学,2011,38(3):34-39. 被引量：1
7易荣庆,李文辉,袁华,王铎,郭武.几何约束多解问题[J].吉林大学学报（工学版）,2008,38(4):871-875. 被引量：1
8张友旺,王荣铸.间接自适应动态递归模糊神经网络控制器设计[J].中南大学学报（自然科学版）,2004,35(2):253-257. 被引量：3
9玉霞,王斯日古楞.蒙古文词性标注及融合词性因子的蒙汉统计机器翻译[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(3):364-367. 被引量：1
10肖振球,曾文华.一种约束的改进可能性C均值聚类方法研究[J].甘肃农业大学学报,2016,51(6):149-154. 被引量：1

软件学报

2013年第10期

浏览历史

内容加载中请稍等...

基于依存适配度的知识自动获取词义消歧方法被引量：11

参考文献3

二级参考文献115

共引文献37

同被引文献64

引证文献11

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于依存适配度的知识自动获取词义消歧方法 被引量：11

参考文献3

二级参考文献115

共引文献37

同被引文献64

引证文献11

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于依存适配度的知识自动获取词义消歧方法被引量：11