基于非参数贝叶斯模型和深度学习的古文分词研究被引量：16

Word Segmentation for Ancient Chinese Texts Based on Nonparametric Bayesian Models and Deep Learning

下载PDF

导出

摘要古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得的F1值为93.28%;仅使用500句分词语料进行弱监督训练时,F1值可达95.55%,高于前人使用6/7语料(约36 000句)进行有监督训练的结果;使用相同规模训练语料时,该文方法获得的F1值为97.40%,为当前最优结果。此外,该文方法还具有较好的泛化能力,模型代码已开源发布。 All the Chinese characters in ancient Chinese texts are written continuously, without obvious segmentation marks between words. This brings great challenges to text understanding and even cultural inheritance. To deal with word segmentation for ancient Chinese texts, we propose the Multi-Stage Iterative Training(MSIT) for unsupervised word segmentation by combining non-parametric Bayesian models with BERT(Bidirectional Encoder Representations from Transformers). It achieves the F1 score of 93.28% on Zuozhuan(an ancient Chinese history book) dataset. After adding only 500 ground truth sentences, which can be considered as weakly supervised learning, the F1 score reaches 95.55%. It outperforms the previous best result, which trains on 6/7 of the Zuozhuan dataset(about 36,000 ground truth sentences). When using the same training set, our method gets the F1 score of 97.40%, the state-of-the-art result. Our proposed method is not only better than traditional sequence labeling algorithms including BERT model, but also proved that it has better generalization ability by experiments. The model and related codes are available online.

作者俞敬松魏一张永伟杨浩 YU Jingsong;WEI Yi;ZHANG Yongwei;YANG Hao(School of Software and Microelectronics,Peking University,Beijing 100871,China;Institute of Linguistics,Chinese Academy of Social Sciences,Beijing 100732,China;Editorial and Research Center of Confucian Canon,Peking University,Beijing 100871,China)

机构地区北京大学软件与微电子学院中国社会科学院语言研究所北京大学儒藏编纂与研究中心

出处《中文信息学报》 CSCD 北大核心 2020年第6期1-8,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61876004)

关键词古文分词非参数贝叶斯模型深度学习无指导学习弱指导学习 word segmentation for ancient Chinese texts nonparametric Bayesian models deep learning unsupervised learning weakly supervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1王晓玉,李斌.基于CRFs和词典信息的中古汉语自动分词[J].数据分析与知识发现,2017,1(5):62-70. 被引量：25
2严顺.基于CRF的古汉语分词标注模型研究[J].江苏科技信息,2016,33(8):10-12. 被引量：6
3俞敬松,魏一,张永伟.基于BERT的古文断句研究与应用[J].中文信息学报,2019,33(11):57-63. 被引量：21
4邱冰,皇甫娟.基于中文信息处理的古代汉语分词研究[J].微计算机信息,2008,24(24):100-102. 被引量：31
5黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015,59(12):135-140. 被引量：42
6石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：70
7杨世超,纪月,赵立鹏.基于条件随机场的古汉语分词研究[J].电脑知识与技术,2017,13(8):183-184. 被引量：3

二级参考文献52

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
5翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
7陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25
8白拴虎.汉语词切分及词性标注一体化方法[C]//计算语言学进展与应用.北京:清华大学出版社,1995:56-61.
9Hwee Tou Ng and Jin Kiat Low. Chinese Part-of- Speech Tagging: One at-a-Time or All-at-Once? Word-Based or Character-Based? [C]//Proceedings of ACL-04: 277-284.
10Yue Zhang and Stephen Clark. Joint Word Segmentation and POS Tagging using a Single Perceptron[C]// Proceedings of ACL-08 : 888-896.

共引文献142

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
4卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
5任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
6程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
7Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：8
8苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
9馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
10丁若尧.面向古汉语史料的信息抽取方法综述[J].中国科技纵横,2019,0(14):50-51. 被引量：1

同被引文献221

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2张力元,王军.古籍数据库分面分类体系设计研究[J].图书馆建设,2021(3):56-61. 被引量：16
3张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英.面向医疗文本的实体及关系标注平台的构建及应用[J].中文信息学报,2020,34(6):36-44. 被引量：12
4程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
5化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
6毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
7李敏.《中国图书馆分类法》组织民族古籍的可行性、局限及其改造[J].图书馆建设,2009(7):16-18. 被引量：5
8周国光.汉语配价语法论略[J].南京师大学报（社会科学版）,1994(4):103-106. 被引量：30
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10马杰,付海波,刘菲.论《左传》的语言特色[J].辽宁工程技术大学学报（社会科学版）,2004,6(4):412-413. 被引量：2

引证文献16

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
2苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
3孔洁.基于深度学习与《中国图书馆分类法》的文献自动分类系统研究[J].新世纪图书馆,2021(5):51-56. 被引量：10
4高瑞卿,董启文,方达,王弘治,方勇.数字技术下《老子》文本与先秦两汉典籍的关系挖掘[J].情报杂志,2021,40(10):99-107. 被引量：3
5王一钒,李博,史话,苗威,姜斌.古汉语实体关系联合抽取的标注方法[J].数据分析与知识发现,2021,5(9):63-74. 被引量：8
6刘忠宝,赵文娟.古籍信息处理回顾与展望[J].大学图书馆学报,2021,39(6):38-47. 被引量：10
7于纯良,吴一平,白如江,王志民.数字人文视域下稷下学语义计算平台建设研究[J].图书馆建设,2022(2):141-149. 被引量：7
8刘畅,王东波,胡昊天,张逸勤,李斌.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):44-54. 被引量：23
9王进,张义.古汉语自动分词技术研究现状及进展[J].海南开放大学学报,2022,23(3):61-69.
10石玉敬,刘伟,葛晓舒,胡为,刘弋莲,易洋.《黄帝内经》文本语料库的构建与应用研究[J].计算机时代,2022(12):1-3. 被引量：2

二级引证文献87

1王弘治.“玄”之取象——關於《老子》中“玄”的解釋[J].诸子学刊,2022(2):54-67.
2王弘治.“道”之析義[J].诸子学刊,2022(1):1-15.
3张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
4雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：22
5张雨,张洪亮,边晓南,章广腾,丁玉芬.基于大数据的黄河地方人文建设探讨[J].人民黄河,2023,45(S01):36-37.
6黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
7李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
8曾惠,董坚峰,徐险峰,付薇.数字人文视角下非物质文化遗产知识库构建--以土家族非遗数字资源为例[J].情报探索,2022(1):63-68. 被引量：3
9刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：4
10郭羽,林丽媛,刘玉良.基于BERT-GCN-ResNet的文献摘要自动分类方法[J].天津科技大学学报,2022,37(2):51-56. 被引量：1

1刘玲毓.注重提升学生自主学习能力[J].新作文（中小学教学研究）,2020,3(5):253-253.
2申丽.高一学生学习英语词汇积极性的策略研究[J].校园英语,2020(17):158-158.
3李昌科.基于弘扬中国特色社会主义文化的思政课社会实践探索[J].读天下（综合）,2020(29):0089-0089.
4郑方.元认知理论在培养中亚留学生自主学习能力上的应用探索[J].湖北开放职业学院学报,2020,33(18):151-153. 被引量：2
5才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7
6杨丰,李云.复合型人才培养模式下信息素养的课堂教学探究[J].科教导刊（电子版）,2020(22):93-94. 被引量：1
7程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
8Xiaofan Zhang,Feiran Zhang.What Users and Uses of Englishes are Represented in the English Textbooks in China[J].Journal of Contemporary Educational Research,2020,4(9):64-67.
9王媛.一课一得要循“标”务“本”[J].语文世界（上旬刊）,2020(6):40-40.
10张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14

中文信息学报

2020年第6期

浏览历史

内容加载中请稍等...

基于非参数贝叶斯模型和深度学习的古文分词研究被引量：16

参考文献7

二级参考文献52

共引文献142

同被引文献221

引证文献16

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于非参数贝叶斯模型和深度学习的古文分词研究 被引量：16

参考文献7

二级参考文献52

共引文献142

同被引文献221

引证文献16

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于非参数贝叶斯模型和深度学习的古文分词研究被引量：16