基于词典信息的先秦汉语全文词义标注方法研究被引量：5

A Study in Dictionary-Based All-word Word Sense Disambiguation for Pre-Qin Chinese

下载PDF

导出

摘要词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。 Word Sense Disambiguation（WSD） is a basic task of Natural Language Processing,including the processing of ancient Chinese documents.In this paper we focuse on the specific field of analyzing pre-Qin ancient Chinese documents.Considering the shortage of training data and semantic resources,we employe a semi-supervised machine learning method to perform all-word WSD of Zuo Zhuan and use Chinese Dictionary v2.0 as the knowledge resource.We randomly selecte 22 words of different frequency and sense number to evaluate the proposed method.On the selected words,our method achieves an average accuracy of 67%,which is significant higher than the baseline method of selecting the most frequent sense.This method is promising for sense tagging of ancient Chinese documents when there is no training data available.It also provides a raw sense tagging result for human correction,enriching traditional dictionaries which usually suffer from insufficient word sense entries.

作者张颖杰李斌陈家骏陈小荷

机构地区南京大学计算机软件新技术国家重点实验室南京师范大学语言信息科技研究中心

出处《中文信息学报》 CSCD 北大核心 2012年第3期65-71,103,共8页 Journal of Chinese Information Processing

基金先秦文献词汇知识挖掘资助项目(2010JDXM023) 211项目"先秦汉语词汇统计与知识检索" 国家社会科学基金资助项目(10&ZD117 10CYY021 08BYY054)

关键词词义消歧义项标注古汉语自然语言处理 word sense disambiguation sense tagging ancient Chinese natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Pradhan,S.,Loper,E.,Dligach,D.,et al.Semeval-2007task-17:English lexical sample srl andall words[C] //Proceedings of SemEval-2007,ACL,2007,87-92.
2汉语大词典2.0[CD].商务印书馆(香港).2005.
3董志翘.为中古汉语研究夯实基础——“中古汉语研究型语料库”建设琐议[J].燕山大学学报（哲学社会科学版）,2011,12(1):1-6. 被引量：10
4于丽丽,丁德鑫,曲维光,陈小荷,李惠.基于条件随机场的古汉语词义消歧研究[J].微电子学与计算机,2009,26(10):45-48. 被引量：13
5Lesk.M.Automatic sense disambiguation usingmachine readable dictionaries:how to tell a pineconefrom an ice cream cone[C] //Proceedings of the 5thannual international conference on Systemsdocumentation,1986:24-26.
6Patwardhan,S.,Banerjee,S.,Pedersen,T.Usingmeasures of Semantic Relatedness for Word SenseDisambiguation[C] //Proceedings of CICLing,2003:241-257.
7Pedersen,T.,Banerjee,S.,Patwardhan,S.Maximizingsemantic relatedness to perform word sense disambiguation[R].Minneaplis:University of MinnesotaSupercomputing Institute,Res.rep:UMSI 2005/25,2005.
8Sinha,R.,Mihalcea,R.Unsupervised graph-basedword sense disambiguation using measures of wordsemantic similarity[C] //Proceedings of the IEEEInternational Conference on Semantic Computing,2007:363-369.
9Agirre E.,Soroa A.Personalizing PageRank for wordsense disambiguation[C] //Proceedings of the 12thConference of the European Chapter of the Associationfor Computational Linguistics,2009:33-41.
10Yarowsky D.Unsupervised Word-SenseDisambiguation Rival Supervised Methods[C] //Proceeding of the 33rd Annual Meeting of theAssociation for Computational Linguistics,1995:189-196.

二级参考文献17

1尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
2全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：12
3张万起.世说新语词典[M].北京：商务印书馆,1998..
4董振东,董强.知网[DB/OL].[2009-02-19].http://www.keenage.com.
5白拴虎.汉语词切分及词性标注一体化方法[C]//计算语言学进展与应用.北京:清华大学出版社,1995:56-61.
6Hwee Tou Ng and Jin Kiat Low. Chinese Part-of- Speech Tagging: One at-a-Time or All-at-Once? Word-Based or Character-Based? [C]//Proceedings of ACL-04: 277-284.
7Yue Zhang and Stephen Clark. Joint Word Segmentation and POS Tagging using a Single Perceptron[C]// Proceedings of ACL-08 : 888-896.
8魏培泉黄居仁等.建构一个以共时与历时语言研究为导向的历史语料库.中文计算语言学期刊,1997,2(1):131-145.
9叶正道.记《新编汉文典》:一部探究汉语言概念范畴网络的历史和比较类书[M].台北:汉学研究通讯,2004.
10王云路.六朝诗歌词语研究[M].哈尔滨:黑龙江教育出版社,1999.

共引文献79

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45.
3俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：14
4程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
5Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：7
6苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：13
7馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
8于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
9陈顺强.彝文自动分词技术研究[J].中文信息学报,2011,25(3):123-128. 被引量：3
10于江德,葛彦强,余正涛.基于条件随机场的汉语词性标注[J].微电子学与计算机,2011,28(10):63-66. 被引量：6

同被引文献116

1俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：14
2程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
3董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
4郁默.台湾中央研究院汉籍全文资料库[J].中国典籍与文化,1998(3):110-115. 被引量：4
5姚松.计算机用于古籍整理研究的现状与展望[J].中国典籍与文化,1995(2):121-127. 被引量：3
6汪定明,李清源.《老子》汉英翻译平行语料库建设[J].上海翻译,2013(4):60-64. 被引量：8
7李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：65
8罗凤珠.以“互动观念”建立“红楼梦网路资料中心”对红学发展之影响[J].红楼梦学刊,1997(S1):537-546. 被引量：3
9张普.计算机在中国古籍整理研究领域中的应用(综述)[J].语文研究,1989(4):40-45. 被引量：5
10栾贵明.电脑中文的突破性进展——迎接第一个国际汉字标准确定[J].汉字文化,1992(2):38-41. 被引量：1

引证文献5

1黄水清,王东波.古文信息处理研究的现状及趋势[J].图书情报工作,2017,61(12):43-49. 被引量：29
2谭红叶,要一璐,梁颖红.基于知识脉络的科技论文推荐[J].山东大学学报（理学版）,2016,51(5):94-101. 被引量：12
3邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：21
4刘畅,王东波,胡昊天,张逸勤,李斌.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):44-54. 被引量：16
5袁悦,王东波,黄水清,李斌.不同词性标记集在典籍实体抽取上的差异性探究[J].数据分析与知识发现,2019,3(3):57-65. 被引量：11

二级引证文献75

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：5
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
3任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
4祝蕊,刘炜.新文科与数字人文学科建设[J].图书与情报,2021(5):53-59. 被引量：12
5唐振贵,向姝恒,罗锦坤,胡蓉.中国历史计时本体构建——以回归历史语境的日内计时为基点[J].数字人文研究,2021,1(2):51-62.
6高利,王春艳,高心丹.运用区块链技术构建数字化古籍管理体系模型的研究[J].图书情报工作,2019,63(3):80-89. 被引量：18
7李响,谭静.融合相关性与多样性的学术论文推荐方法研究[J].情报理论与实践,2017,40(6):99-103. 被引量：8
8李惠,侯君明.古代书信体文献的社交网络模型[J].南京师范大学文学院学报,2018(3):164-172. 被引量：7
9王蒙湘,李芳芳,谷峪,于戈.交互式数据探索综述[J].计算机科学与探索,2017,11(2):171-184. 被引量：3
10刘浏,王东波,黄水清.机器学习视角的人工智能研究回顾及对图书情报学的影响[J].图书与情报,2017(6):84-95. 被引量：14

1乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
2郑春英.不认识的字就用手写输入[J].网友世界,2009(16):17-17.
3谭世勋.论先秦汉语介词宾语的隐含省略[J].广东第二师范学院学报,1987,18(2):49-56.
4苏新春,李安,洪桂治.机用义项库在词义标注中的作用及其完善[J].厦门大学学报（哲学社会科学版）,2010,60(3):137-144. 被引量：9
5金澎.词义消歧和词义消歧评测简介[J].术语标准化与信息技术,2010(3):29-34. 被引量：1
6石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：67
7梁社会,陈小荷,刘浏.先秦汉语排比句自动识别研究--以《孟子》《论语》中的排比句自动识别为例[J].计算机工程与应用,2013,49(19):222-226. 被引量：6
8刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4
9女娲.殴打男友指南[J].计算机应用文摘,2009,25(20):87-87.
10壹分.机器人战队新成员——爱可视Archos5 CEO个人网络多媒体终端[J].大众软件,2010(2):10-10.

中文信息学报

2012年第3期

浏览历史

内容加载中请稍等...

基于词典信息的先秦汉语全文词义标注方法研究被引量：5

参考文献13

二级参考文献17

共引文献79

同被引文献116

引证文献5

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

基于词典信息的先秦汉语全文词义标注方法研究 被引量：5

参考文献13

二级参考文献17

共引文献79

同被引文献116

引证文献5

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

基于词典信息的先秦汉语全文词义标注方法研究被引量：5