基于向量空间模型的古汉语词义自动消歧研究被引量：6

Automatic Word Sense Disambiguation of Ancient Chinese Based on Vector Space Model

导出

摘要借鉴现代汉语词义消歧的研究成果,提出一种改进的向量空间模型词义消歧方法,即在古汉语义项词语知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义消歧任务。以中国农业古籍全文数据库为统计语料,对10个典型古汉语多义词,共29个义项、1 836条待消歧上下文进行义项标注的实验,消歧平均正确率达到79.5%。 How to annotate the meaning of words is an important research work on collation of Chinese ancient books. The manual interpretation is time -consuming and laborious. According to the word sense disambiguation of modern Chinese, an improved unsupervised disambiguation method of ancient Chinese is proposed based on the vector space model. In order to disambiguate the word sense, the knowledge repository of ancient Chinese polysemous words is build, and the contexts and the meanings of the polysemous words are mapped into the vector space model. This paper takes the full - text database of Chinese agricultural ancient books for statistics corpus, and conducts the experiment using 10 typical polysemous words of ancient Chinese which include 29 senses and 1836 contexts. The result shows that the average disambiguation accuracy achieves 79.5%.

作者常娥张长秀侯汉清惠富平

机构地区东南大学图书馆南京农业大学信息科技学院南京农业大学人文学院

出处《图书情报工作》 CSSCI 北大核心 2013年第2期114-118,共5页 Library and Information Service

基金国家社会科学基金项目"古籍整理与开发智能化技术研究"(项目编号:08ATQ002) 高等学校博士学科点专项科研基金资助课题"古农书资料自动编纂及注释系统的设计与构建"(项目编号:20090097110033)研究成果之一

关键词向量空间模型词义消歧古汉语 vector space model semantic disambiguation ancient Chinese

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1百度百科.古书注解[EB/OL].[2012-05-23].http ://baike. baidu. com/view/793424. htm#3.
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
3Lesk M. Automatic Sense Disambiguation Using Machine Readable Dictionaries: how to tell a pine cone from an ice cream cone[ C ]// Proceedings of the 5th International Conference on Systems Documentation. Toronto Canada: ACM, 1986 : 24 - 26.
4Manning C D, Schutze H. Foundations of statistical natural language processing [ M ]. Cambridge : The MIT Press, 1999 : 229 - 260.
5Yarowsky D. Word-sense disambiguation using statistical models of Roger' s categories trained on large corpora[ EB/OL]. [ 2012 -05 -23 ]. http://www, informatik, uni -trier. de/～ ley/db/conf/coling/coling1992. html.
6Ng H T and Lee H B. Integrating multiple knowledge sources to disambiguate word sense: An example based approach [ EB/OL]. [2012 -05 -23 ]. http://citeseerx. ist. psu. edu/showciting?cid = 4549.
7张仰森,郭江.四种统计词义消歧模型的分析与比较[J].北京信息科技大学学报（自然科学版）,2011,26(2):13-18. 被引量：7
8李永亮,黄曙光,鲍蕾.一种基于PageRank算法和知网的词义消歧方法[J].计算机应用与软件,2011,28(5):213-215. 被引量：4
9Lin Shoude, Karin V. A semantics-Enhanced language model for unsupervised word sense disambiguation [ C ]//Proceedings of the 9th International Conference on Computational Linguistics and Intelligent Text Proceeding. Haifa: Springer,2008:287 -298.
10李娟子.汉语词义消歧方法研究[D].北京:清华大学,1999.

二级参考文献107

1宋余庆,罗永刚,孙志挥.应用主分量分析与粗糙集处理的特征提取[J].计算机工程与应用,2004,40(22):48-50. 被引量：7
2卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
3黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
4卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
5陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
6Ide N, Veronis J. Word sense disambiguation: the state of the art. Computational Linguistics, 1998, 24(1): 1-41.
7Lin S D, Kaxin V. A semantics-enhanced language model for unsupervised word sense disambiguation. In: Proceedings of the 9th International Conference on Computational Linguistics and Intelligent Text Processing. Haifa, Israel: Springer, 2008. 287-298.
8McCarthy D, Koeling R, Weeds J, Carroll J. Unsupervised acquisition of predominant word senses. Computational Linguistics, 2007, 33(4): 553-590.
9Pedersen T, Bruce R. Distinguishing word senses in untagged text. In: Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing. New York, USA: 1997. 197-207.
10盛骤.概率论与数理统计.上海:上海交通人学出版社,1999.83-84.

共引文献77

1姜丽华,黄敏,马永光,佟振声.基于Multi-agent技术的Web文本挖掘模型及应用[J].计算机工程,2005,31(1):217-218. 被引量：3
2全昌勤,何婷婷,姬东鸿,刘辉.基于义类的无导词义消歧方法的研究[J].计算机应用研究,2005,22(4):39-41. 被引量：2
3陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
4王瑞琴,孔繁胜.基于无导词义消歧的语义查询扩展[J].情报学报,2011,30(2):131-137. 被引量：4
5陈浩,何婷婷,姬东鸿.基于MDL聚类的无导词义消歧[J].小型微型计算机系统,2005,26(10):1846-1849. 被引量：2
6刘挺,卢志茂,郎君,李生.Chinese word sense disambiguation based on neural networks[J].Journal of Harbin Institute of Technology(New Series),2005,12(4):408-414.
7何婷婷,谢芳.利用BP神经网络的中文词义消歧模型[J].华中师范大学学报（自然科学版）,2005,39(4):470-474. 被引量：1
8卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
9谢芳,胡泉.基于BP神经网络的词义消歧模型[J].计算机工程与应用,2006,42(12):187-189. 被引量：3
10刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65

同被引文献148

1张力元,王军.古籍数据库分面分类体系设计研究[J].图书馆建设,2021(3):56-61. 被引量：13
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：14
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
4董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
5李敏.《中国图书馆分类法》组织民族古籍的可行性、局限及其改造[J].图书馆建设,2009(7):16-18. 被引量：5
6于亭.计算机与古籍整理研究手段现代化[J].古汉语研究,2000(3):66-70. 被引量：19
7兰和群.古文断句与翻译技巧[J].河南师范大学学报（哲学社会科学版）,2005,32(3):120-121. 被引量：3
8田晓宇,梁静国.支持向量机在文本自动分类中的应用研究[J].情报学报,2006,25(2):208-214. 被引量：7
9赵彦斌,李庆华.汉字关联性量化方法及其在文本相似性分析中的应用[J].计算机应用,2006,26(6):1396-1397. 被引量：1
10宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23

引证文献6

1吴晨生,郭金忠,罗植,廖涛.中国科普网站的特征向量研究[J].科普研究,2013,8(5):43-46.
2刘忠宝,赵文娟,贾君枝.多标记用户分类系统构建方法研究[J].图书情报工作,2014,58(10):145-148. 被引量：1
3顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：4
4汤萌,李芳,王昕.历史地理信息的获取与标准化——以上海交通大学馆藏地方历史文献为例[J].图书馆杂志,2018,37(1):50-57. 被引量：6
5邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：21
6刘忠宝,赵文娟.古籍信息处理回顾与展望[J].大学图书馆学报,2021,39(6):38-47. 被引量：9

二级引证文献40

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2胡蓉,唐振贵,韩毅,王锰.混合方法视角下的跨屏用户类型研究[J].图书馆,2018(7):69-75. 被引量：3
3韩宇,王蕾,叶湄.徽州文书数据库建设的现状与发展趋势[J].高校图书馆工作,2019,39(6):54-60. 被引量：6
4俞敬松,魏一,张永伟.基于BERT的古文断句研究与应用[J].中文信息学报,2019,33(11):57-63. 被引量：19
5汤萌,赵思渊.民间文书的数字化建设与资源挖掘——以上海交通大学图书馆馆藏为中心[J].档案学通讯,2020(6):14-21. 被引量：8
6邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：21
7马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
8陈诗,王东波,黄水清.数字人文下的典籍人称代词指代消解研究[J].情报理论与实践,2021,44(10):165-172. 被引量：3
9陈海玉,向前,赵冉.馆藏地方历史文书地理信息系统构建研究——以清水江文书为例[J].图书馆杂志,2021,40(9):88-96. 被引量：3
10常博林,万晨,李斌,陈欣雨,冯敏萱,王东波.基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例[J].图书情报工作,2021,65(22):134-142. 被引量：10

1任海英,于立婷.一种基于维基百科的多策略词义消歧方法[J].现代图书情报技术,2015(11):18-25. 被引量：1
2王永厚.中国农业古籍及其珍藏[J].农业图书情报学刊,1995(A01):100-103. 被引量：11
3吴云芳.词义消歧研究:资源、方法与评测[J].当代语言学,2009,11(2):113-123. 被引量：8
4王瑞琴,孔繁胜.基于查询扩展和词义消歧的语义检索[J].情报学报,2010,29(1):16-21. 被引量：5
5赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16
6王瑞琴,孔繁胜.基于无导词义消歧的语义查询扩展[J].情报学报,2011,30(2):131-137. 被引量：4
7任宝旗.网络编辑的问题及应对[J].新闻爱好者（下半月）,2010(4):42-43. 被引量：2
8赵圣花,齐晓宁.流行语“～族”的认知解释及其文化背景(下)[J].日语知识,2005(9):5-6. 被引量：1
9付媛,朱礼军,韩红旗.姓名消歧方法研究进展[J].情报工程,2016,2(1):53-58. 被引量：14
10王华夫.日本收藏中国农业古籍概况(续)[J].农业考古,2001(1):289-291. 被引量：1

图书情报工作

2013年第2期

浏览历史

内容加载中请稍等...

基于向量空间模型的古汉语词义自动消歧研究被引量：6

参考文献16

二级参考文献107

共引文献77

同被引文献148

引证文献6

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的古汉语词义自动消歧研究 被引量：6

参考文献16

二级参考文献107

共引文献77

同被引文献148

引证文献6

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的古汉语词义自动消歧研究被引量：6