一种反映词语相关度语义库的构建方法被引量：3

Constructing Semantic Library to Reflect Word Interrelationship

下载PDF

导出

摘要为了反映词语间的语义相关程度,提出了一种基于向量空间模型的构建语义库的新方法.在构建语义库时,对大量语料文本进行迭代式学习,在学习过程中引入淘汰算法,并综合考虑了诸如共同出现次数、平均出现距离、信息熵以及单字语义信息等多种对词语间语义关系产生影响的因素.实验证明,用该方法得到的相关语义库能够较好地反映现实世界中词语之间的相关程度. In order to reflect word interrelationship, a new method based on a vector space model was presented to construct a semantic library. The semantic library is trained with large number of texts. This training is iterative, makes use of elimination algorithm, and takes into consideration of many relevant factors that may have effects on semantic relationship between words. The factors considered in the construction include co occurrence, average distance, information entropy, and meanings of Chinese characters. The experiments show that this library is able to reflect the interrelationships among words in the real world.

作者徐南轩邹恒明

机构地区上海交通大学软件学院

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2008年第7期1129-1132,共4页 Journal of Shanghai Jiaotong University

基金日立-交大软件学院数字家电实验室合作研究项目

关键词语义库向量空间语义相关度信息熵语料训练 semantic library vector space word relativity： information entropy text training

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
2党齐民,吕冬煜.基于词关联语义的文本分类研究[J].计算机应用,2004,24(4):62-63. 被引量：6
3许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
4Rohde D I. T, Gonnerman I. M, Plaut D C. An improved method for deriving word meaning from lexical co occurrence [EB/OL]. (2004-03-22). http://dh4. mit. edu/-dr/COAI.S/Coals, pdf.
5Niwa Y, Nitta Y. Co occurrence vectors from corpora vs. distance vectors from dictionaries[C]//Makoto Nagao. International Conference on Computational Linguistics, Proceedings of the 15th Conference on Computational Linguistics-Volume 1. Kyoto, Japan: Association for Computational Linguistic, 1994 : 304-309.
6He M X, Ricci P E, Information entropy of orthogonal polynomials [J], Applied Mathematics and Computation, 2002, 128(2/3): 261-274.
7李鹤龄.信息熵、玻尔兹曼熵以及克劳修斯熵之间的关系——兼论玻尔兹曼熵和克劳修斯熵是否等价[J].大学物理,2004,23(12):37-40. 被引量：28
8Zhang H P, Yu H K, Xiong D Y, et al. HHMM- based Chinese lexical analyzer ICTCLAS[C]//Qing Ma. Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. Sapporo, Japan: Association for Computational Linguistics, 2003: 184-187.

二级参考文献22

1穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议论文集(ICCIP''98)[C].北京:清华大学出版社,1998.458-465.
2Jaynes E T. Information theory and statistical mechanics [J]. Phy Rev, 1957, 106(4):620-630.
3Dagan I, Marcus S. Contextual word similarity and estimation from sparse data[A]. Collins M. Processing of the Annual Meeting of the Association for Computational Linguistics[C]. New Mexico:American Association for Artificial Intelligence,1993. 164-171.
4Gan K W, Wong P W. Annotation information structures in Chinese texts using Hownet[A]. Charniak E. Second Chinese Language Processing Workshop[C]. Hong Kong: Hong Kong University of Science and Technology, 2000. 85-92.
5Agirre E, Rigau G. A proposal for word sense disambiguation using conceptual distance[A]. Brill E. Proc of International Conference Recent Advances in Natural Language Processing[C]. Bulgaria: Tzigov Chark, 1995. 258-264.
6董振东董强.知网[EB／OL].http://www.keenage.com,1999—09—23/2004—03—06.
7Voorhees E. M.. Query expansion using lexical-semantic relations. In: Proceedings of the 17th ACM SIGIR Conference on R＆D in Information Retrieval, Dublin, Ireland, 1994, 61～69
8Miller G. , Beckwith R. et al.. Introduction to WordNet: An on-line lexical database. International Journal of Lexicography,1990, 3(4): 234～244
9Richardson R. , Smeaton A.. Using WordNet in a knowledgebased approach to information retrieval. Trinity College Dublin, Working paper CA-0395, 1995
10Smeaton A. F. , Berrut C.. Thresholding postings lists, query expansion by word-word distances and POS tagging of Spanish text. In: Proceedings of the 4th Text Retrieval Conference,Washington DC, 1996, 373～391

共引文献138

1周粉,夏幼明.一种改进的基于知网的语义相似度计算方法[J].云南大学学报（自然科学版）,2008,30(S2):215-218. 被引量：1
2田俊龙,郭嘉杰,赵红光.熵和信息及其在生命系统中的应用[J].广西物理,2010,31(4):11-14. 被引量：1
3叶晶.自然语言处理在“立德树人”研究中的运用[J].佳木斯教育学院学报,2013(12):49-50.
4王瑞琴,孔繁胜.基于无导词义消歧的语义查询扩展[J].情报学报,2011,30(2):131-137. 被引量：4
5陈频,王周敬.基于语义分析和外延匹配的文档分类方法[J].福建电脑,2005,21(10):44-45.
6刘柏嵩,高济,李飞.知识管理中基于本体的扩展检索方法[J].计算机辅助设计与图形学学报,2006,18(4):556-562. 被引量：5
7谭义红,王鑫,周铁军.基于概念检索的中文搜索引擎的设计与实现[J].计算机应用与软件,2006,23(5):38-40. 被引量：4
8何西培,何坤振.信息熵辨析与熵的泛化[J].情报杂志,2006,25(12):109-112. 被引量：23
9张映海,何中市.基于关键词与语义概念结合的信息检索研究[J].计算机应用,2006,26(12):2964-2966. 被引量：5
10聂卉.基于本体的查询扩展与规范[J].现代图书情报技术,2007(3):35-38. 被引量：15

同被引文献43

1吴皓,田国会,段朋,薛英花,张海婷.基于RFID技术的大范围未知环境信息表征[J].中南大学学报（自然科学版）,2013,44(S1):166-170. 被引量：5
2张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
3张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
4李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
5Dang H,Palmer M.Simple feature for Chinese word sense disambiguation[C].Taipei,Taiwan:Proceedings of the 19th International Conference on Computational Linguistics,2002.
6董振东董强.[EB/OL].知网http://www.keenage.com,2000.
7Vasudevan S, Gachter S, Nguyen V T, et al. Cognitive maps for mobile robots - An object based approach[J]. Robotics and Au- tonomous Systems, 2007, 55(5): 359-371.
8Jebari I, Bazeille S, Battesti E, et al. Multi-sensor semantic map- ping and exploration of indoor environments[C]//IEEE Confer- ence on Technologies for Practical Robot Applications. Piscat- away, USA: IEEE, 2011: 151-156.
9Wu H, Tian G H, Li Y, et al. Spatial semantic hybrid map build- ing and application of mobile service robot[J]. Robotics and Au- tonomous Systems, 2014, 62(6): 923-941.
10Wang E Semantic mapping for domestic service robots[D]. Hefei: University of Science and Technology of China, 2013.

引证文献3

1郭充,张仰森.基于《知网》义原搭配的中文文本语义级自动查错研究[J].计算机工程与设计,2010,31(17):3924-3928. 被引量：12
2彭云,万常选,江腾蛟,刘德喜,刘喜平.一种词聚类LDA的商品特征提取算法[J].小型微型计算机系统,2015,36(7):1458-1463. 被引量：12
3于金山,吴皓,田国会,薛英花,赵贵祥.基于云的语义库设计及机器人语义地图构建[J].机器人,2016,38(4):410-419. 被引量：7

二级引证文献31

1熊晶,钟珞,王爱民.甲骨文本体构建方法研究及应用[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):953-957. 被引量：5
2吴林,张仰森,王璐.《现代汉语语法信息词典》的概率化改造及其应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):57-61.
3张仰森,黄改娟,苏文杰.基于隐最大熵原理的汉语词义消歧方法[J].中文信息学报,2012,26(3):72-78. 被引量：8
4吴林,张仰森.基于知识库的多层级中文文本查错推理模型[J].计算机工程,2012,38(20):21-25. 被引量：10
5王璐,张仰森,吴林.基于多知识源的语义搭配知识获取及表示方法[J].计算机工程,2012,38(20):109-112. 被引量：2
6管君,谢玮,张仰森.基于多知识源的语义搭配知识库的构建及应用[J].计算机工程与设计,2013,34(6):2136-2140. 被引量：3
7王秀慧,王丽珍,麻淑芳.结合语义的改进FTC文本聚类算法[J].计算机工程与设计,2014,35(2):515-519. 被引量：5
8王秀慧,殷旭彪,薄文彦.改进的基于FIHC的科学数据聚类算法[J].山西大同大学学报（自然科学版）,2014,30(1):4-7. 被引量：1
9苏丰龙,谢庆华,邱继远,岳振军.基于深度学习的领域实体属性词聚类抽取研究[J].微型机与应用,2016,35(1):53-55. 被引量：7
10万红新,彭云,郑睿颖.时序化LDA的舆情文本动态主题提取[J].计算机与现代化,2016(7):91-94. 被引量：3

1邵静.词语相关度计算工具的设计与实现[J].电子制作,2013,21(19):262-262.
2曾淑琴,吴扬扬.基于HowNet的词语相关度计算模型[J].微型机与应用,2012,31(8):77-80. 被引量：7
3丁思远,洪宇,朱珊珊,姚建民,朱巧明.基于Tri-Training的事件关系分类方法研究[J].计算机工程与科学,2015,37(12):2345-2351.
4袁晓峰.基于词语相关度的文档主题抽取算法[J].成都大学学报（自然科学版）,2012,31(4):367-369.
5黄岚,杜友福.一种基于维基百科的中文词语相关度学习算法[J].中文信息学报,2016,30(3):36-45.
6张振幸,李金厚.一种基于知网的语义相关度计算方法[J].洛阳师范学院学报,2010,29(2):81-84. 被引量：3
7周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
8周自维,周冰,赵雪.基于改进人工势场的多机器人编队控制[J].科技创新与应用,2015,5(33):44-45. 被引量：4
9王松,何正芬.LRU淘汰算法的一种实现设想[J].楚雄师范学院学报,2007,22(6):21-26.
10宋巍,张宇,谢毓彬,刘挺,李生,都云程.基于微博分类的用户兴趣识别[J].智能计算机与应用,2013,3(4):80-83. 被引量：12

上海交通大学学报

2008年第7期

浏览历史

内容加载中请稍等...

一种反映词语相关度语义库的构建方法被引量：3

参考文献8

二级参考文献22

共引文献138

同被引文献43

引证文献3

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

一种反映词语相关度语义库的构建方法 被引量：3

参考文献8

二级参考文献22

共引文献138

同被引文献43

引证文献3

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

一种反映词语相关度语义库的构建方法被引量：3