基于语义密度的名词消歧算法被引量：2

Noun Sense Disambiguation Based on Semantic Density

下载PDF

导出

摘要提出了一种以概念相关性为主要依据的名词消歧算法。与现有算法不同的是,该算法在WordNet上对两个语义之间的语义距离进行了拓展,定义了一组语义之间的语义密度,从而量化了一组语义之间的相关性。将相关性转化为语义密度后,再进行消歧。还提出了一种在WordNet上的类似LSH的语义哈希,从而大大降低了语义密度的计算复杂度以及整个消歧算法的计算复杂度。在SemCor上对该算法进行了测试和评估。 Proposed a novel approach for noun sense disambiguation based on concept correlation.Different from existing algorithms,we extended the notion of semantic distance on WordNet by defining a semantic density for a group of word senses,thus quantizing the correlation among a group of word senses.We disambiguated noun sense after converting the correlation into semantic density.Besides,we also proposed an LSH like semantic hashing on WordNet.With semantic hashing,we greatly reduced the time complexity of calculating semantic density and that of the whole disambiguation algorithm.Experiments and evaluation of this novel approach on SemCor were made.

作者何文垒刘功申

机构地区上海交通大学信息安全工程学院

出处《计算机科学》 CSCD 北大核心 2012年第6期194-197,共4页 Computer Science

基金 863计划项目(2010AA012505) 教育部科技发展中心项目(2010121)资助

关键词消歧名词消歧语义密度语义哈希 Disambiguation Noun sense disambiguation Semantic density Semantic hashing

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1Turdakov D Y. Word Sense Disambiguation Methods I-J]. Pro- gramming and Computer Software, 2010,36(6) : 309-326.
2Lesk M. Automatic sense disambiguation using machine reada- ble dictionaries:how to tell a pine cone from an ice cream cone [C] // Proceedings of the 5th Annual International Conferenee on Systems Documentation ( SIGDOC ' 86 ). New York, NY, USA: ACM, 1986 : 24-26.
3Miller G A. Wordnet: A Lexieal Database for English[J]. Com- munications of the ACM, 1995,38(11) : 39-41.
4Cao D D, Basili R, Luciani M, et al. Robust and Efficient Page Rank for Word Sense Disambiguation[-C-] ,//Proceedings of the 2010 Workshop on Graph-based Methods for Natural Language Processing. Uppsala, Sweden: ACL, 2010 24-32.
5Liu Hong-fang, Teller V, Friedman C. A Multi-aspect Compari- son Study of Supervised Word Sense Disambiguation[-J. Journal of the American Medical Informatics Association, 2004,11 (4) : 320-331.
6Berkhin P. Survey of Clustering Data Mining Techniques[R].CA, USA: Accrue Software, Inc. , 2002.
7Miller G A, Leacock C, Tengi R, eta|. A Semantic Concordance [C]//Proceedings of the Workshop on Human Language Tech- nology(HLT ' 93 ). Morristown, N J, USA: Association for Com- putational Linguistics, 1993 : 303-308.
8Roventini, Alonge, Bertagna, et al. ItalWordNet: Building a Large Semantic Database for the Automatic Treatment of Italian[J]. Linguistica Computazionale, 2003,18 : 745-791.
9Vossen P. EuroWordNet: building a multilingual database with wordnets for European languages[-J']. The ELRA Newsletter, 1998,3(1) 7-10.
10于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002,16(4):12-20. 被引量：67

二级参考文献31

1鲁川,缑瑞隆,刘钦荣.交易类四价动词及汉语谓词配价的分类系统[J].汉语学习,2000(6):7-17. 被引量：24
2Huang, Chu-Ren, I-Li Su, Pei-Yi Hsiao, and Xiu- Ling Ke. Paranyms, Co-Hyponyms and Antonyms: Representing Semantic Fields with Lexical Semantic Relations. [C]//Chinese Lexical Semantics Workshop. May 20-23. Hong Kong: Hong Kong Polytechnic University. 2007:66-72.
3Vossen, Piek, Eneko Agirre, Nicoletta Calzolari, Christiane Fellbaum, Shu-Kai Hsieh, Chu Ren Huang, Hitoshi Isahara, Kyoko Kanzaki, Andrea Marchetti, Monica Monachini, Federieo Neri, Remo Raffaelli, German Rigau, Maurizion Tesconi and Joop VanGent. KYOTO: A System for Mining, Structuring, and Distributing Knowledge Across Languages and Cultures[C]//To be presented at the 4th Global WordNet Conference. Szeged, Hungary. January 2008. 22-25.
4Ahrens, Kathleen, Li-li Chang, Keh-jiann Chen, and Chu-Ren Huang. Meaning Representation and Meaning Instantiation for Chinese Nominals [J]. Computational Linguistics and Chinese Language Processing. 1998, 3(1):45-60.
5Hong, Jia-Fei, Chu Ren Huang and Kathleen Ahrens. Event Selection and Coercion of Two Verbs of Ingestion[C]//Proceedings of Chinese Lexical Semantics Workshop. 2007:59-65.
6Huang, Chu Ren, Elanna I. J. Tseng, Dylan B. S. Tsai and Brian Murphy. Cross-lingual Portability of Semantic relations: Bootstrapping Chinese WordNet with English WordNet Relations [J]. Language and Linguistics. 2003. 4(3): 509-532.
7Vossen, Piek. (ed.). EuroWordNet [EB/OL]. 1998. Dordrecht, Holland: Kluwer.
8Fellbaum, Christiane. (ed.). WordNet: An Electronic Lexical Database[M]. MIT 1998. Press.
9Huang, Chu-Ren, Chun Ling Chen, Cui-Xia Weng, Hsiang-Ping Lee, Yong-Xiang Chen and Keh-jiann Chen. The Sinica Sense Management System: Design and Implementation[J]. Computational Linguistics and Chinese Language Processing. 2005, 10(4) :417-430.
10陈永祥,洪嘉酣,黄丽婉,黄居仁.冈特网中文词汇知识检索系统之建置[C]//第七届汉语词汇语义学研讨会(CLSW-7).2006.台北.2006.5.22-24.

共引文献79

1李强,袁毓林.生成词库理论和名词语义的结构描述与概念解释[J].语言学论丛,2019(1):263-295. 被引量：1
2卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
3吴云芳.V+V形成的并列结构[J].语言研究,2004,24(3):45-51. 被引量：4
4祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
5孙斌.一种义项矩阵模型SMM[J].中文信息学报,2005,19(2):28-35. 被引量：3
6熊静娴,李生红.基于概念网络的文本信息监控技术[J].信息安全与通信保密,2005,27(10):57-59. 被引量：2
7唐运良.农村学校推广普通话之我见[J].基础教育研究,2005(8):10-11. 被引量：1
8吴云芳.并列成分中心语语义相似性考察[J].当代语言学,2005,7(4):305-315. 被引量：15
9吐尔根.伊布拉音,阿不里米提.阿不都热依木.维汉机器翻译词典的结构设计与实现(英文)[J].新疆大学学报（自然科学版）,2005,22(3):258-262. 被引量：4
10熊静娴,李生红.面向不良文本信息监控的概念网技术研究[J].计算机工程与应用,2006,42(3):183-186. 被引量：3

同被引文献5

1史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
2王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20(8):2138-2152. 被引量：17
3李永亮,黄曙光,鲍蕾.一种基于PageRank算法和知网的词义消歧方法[J].计算机应用与软件,2011,28(5):213-215. 被引量：4
4罗俊丽,李慧娜,路凯.基于词义消歧的语义查询扩展研究[J].微电子学与计算机,2012,29(1):71-75. 被引量：3
5于林林,魏琦,宋丽芳.基于多种方法相融合的词义消歧的研究[J].电脑知识与技术（过刊）,2010,0(33):9514-9516. 被引量：1

引证文献2

1罗俊丽.基于语义关系图的词义消歧方法[J].电脑知识与技术,2013,9(3):1548-1550. 被引量：1
2刘刚,左权,杨倩茹.一种基于指纹融合的跨语言剽窃检测技术[J].计算机应用研究,2019,36(1):168-174. 被引量：5

二级引证文献6

1张和,张海燕,鲁翠涛,丁敏娇.医学论文跨语种抄袭的特征分析和防范措施[J].编辑学报,2023,35(2):170-174.
2郭卫兵,叶继元.学术失范、不端检测软件的功能、局限与对策——以学术研究规范为视角[J].图书馆论坛,2019,39(3):2-9. 被引量：12
3吴凌,李海霞,郭桃美.国内五个学术不端文献检测系统的对比研究[J].科技传播,2019,11(10):7-12. 被引量：8
4王迪.计算机程序抄袭检测系统设计及实践分析[J].电子测试,2020,31(16):64-65. 被引量：1
5邵朱励.研究生学位论文引文失范问题及应对机制[J].石家庄铁道大学学报（社会科学版）,2022,16(1):104-110.
6唐忠,李勇.结合词典释义基于BERT的汉语词义消歧[J].电脑知识与技术,2024,20(21):15-17.

1刘金岭.基于语义密度的文本聚类研究[J].计算机工程,2010,36(5):81-83. 被引量：7
2文辉,王明文,吴水秀,万剑怡.基于Markov网络及laplacian映射的快速相似性检索方法[J].计算机应用与软件,2012,29(8):37-40. 被引量：1
3徐红艳,方欣,冯勇.Web服务匹配中基于语义距离的概念相似度计算方法的改进[J].计算机应用,2011,31(10):2808-2810. 被引量：2
4崔其文,解福.改进的领域本体概念语义相似度计算方法[J].计算机应用与软件,2012,29(2):173-174. 被引量：12
5毛晓蛟,杨育彬.一种基于子空间学习的图像语义哈希索引方法[J].软件学报,2014,25(8):1781-1793. 被引量：8
6张艳霞,张英俊,潘理虎,谢斌红,陈立潮.一种改进的概念语义相似度计算方法[J].计算机工程,2012,38(12):176-178. 被引量：5
7张会平,吕学强,施水才,李渝勤.基于WordNet的语义分布词典建设[J].现代图书情报技术,2007(3):55-59.
8李虹,李磊.一种基于扩展概念图的词义识别算法[J].计算机科学,2004,31(7):171-174.
9Javier Tejada-Carcamo,Hiram Calvo,Alexander Gelbukh,Kazuo Hara.Unsupervised WSD by Finding the Predominant Sense Using Context as a Dynamic Thesaurus[J].Journal of Computer Science & Technology,2010,25(5):1030-1039. 被引量：1

计算机科学

2012年第6期

浏览历史

内容加载中请稍等...

基于语义密度的名词消歧算法被引量：2

参考文献14

二级参考文献31

共引文献79

同被引文献5

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于语义密度的名词消歧算法 被引量：2

参考文献14

二级参考文献31

共引文献79

同被引文献5

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于语义密度的名词消歧算法被引量：2