一种基于层叠CRF的古文断句与句读标记方法被引量：9

Method of sentence segmentation and punctuating for ancient Chinese literatures based on cascaded CRF

下载PDF

导出

摘要针对利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题,设计了一种六字位标记集,提出了一种基于层叠式CRF模型的古文断句与句读标记方法。基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记。实验在5M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%。 Data sparseness is a primary challenge in sentence segmentation and punctuating for ancient Chinese literatures using natural language processing technology. In order to overcome this difficulty, designed a 6-tag set and proposed a method based on cascaded conditional random fields. The main idea was as follows ： basing on the 6-tag set, a low level model deter- mined the boundaries of sentences according to observation sequence and a high level model punctuated sentences taking con- sideration of both observation sequence and low level＇ s results. Done close test and open test based on approximate 5M mixed corpus respectively. The F measure of sentence segmentation and punctuation were 96.48%. and 91.35% respectively in close test, and those were 71.42% and 67.67% respectively in open test.

作者张合王晓东杨建宇周卫东

机构地区河南师范大学计算机与信息技术学院北京得意音通技术有限责任公司北京交通大学信息所

出处《计算机应用研究》 CSCD 北大核心 2009年第9期3326-3329,共4页 Application Research of Computers

基金河南省科技厅攻关资助项目(0624480021)

关键词古汉语层叠条件随机场数据稀疏断句句读标注 ancient Chinese literatures cascaded CRF data sparseness sentence segmentation punctuating

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1CHAROENPORNSAWAT P, SORNLERTLAMVANICH V. Automatic sentence break disambiguation for Thai [ C ]//Proc of ICCPOL ' 01. 2001:231-235.
2胡俊峰,俞士汶.唐宋诗之计算机辅助深层研究[J].北京大学学报（自然科学版）,2001,37(5):727-733. 被引量：24
3陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25
4LAFFERTY J, McCALLUM A, PEREIRA F. Conditional random field: probabilistic models for segmenting and labeling sequence data [C]//Proc of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282-289.
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
7ZHAO Hai, HUANG Chang-ning, LI Mu. An improved Chinese word segmentation system with conditional random field [ C ]//Prox of the 15th SIGHAN Workshop on Chinese Language Processing. Sydney: [s. n. ], 2006:162-165.
8NOCEDAL J, WRIGHT S J. Numerical optimization [ M ]. New York : Springer, 1999 : 194-200.

二级参考文献41

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
7Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
8S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
9J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
10Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286

共引文献256

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：7
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
4陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
5尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
8俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
9李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
10任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1

同被引文献91

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：16
2吴智嘉.民族古籍数字化的现状及科学保护问题研究[J].黑龙江民族丛刊,2019(5):108-114. 被引量：3
3吕叔湘.整理古籍的第一关[J].中国出版,1983(4):44-50. 被引量：3
4于亭.计算机与古籍整理研究手段现代化[J].古汉语研究,2000(3):66-70. 被引量：19
5李智海.中国古代文献中的干支纪时[J].内蒙古民族大学学报（社会科学版）,2004,30(6):107-109. 被引量：3
6阚景忠.古文不标点断句的文化阐释[J].徐州师范大学学报（哲学社会科学版）,2005,31(2):67-69. 被引量：2
7兰和群.古文断句与翻译技巧[J].河南师范大学学报（哲学社会科学版）,2005,32(3):120-121. 被引量：3
8常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：15
9常娥,侯汉清.农业古籍自动编纂的设计和研究[J].南京农业大学学报（社会科学版）,2007,7(1):99-104. 被引量：9
10陈天莹,陈蓉,潘璐璐,李红军,于中华.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-193. 被引量：25

引证文献9

1顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：4
2王恒升,李熙印.机器人自然语言导航的层叠式条件随机场模型[J].计算机工程与科学,2017,39(8):1538-1545. 被引量：1
3俞敬松,魏一,张永伟.基于BERT的古文断句研究与应用[J].中文信息学报,2019,33(11):57-63. 被引量：20
4王倩,王东波,李斌,许超.面向海量典籍文本的深度学习自动断句与标点平台构建研究[J].数据分析与知识发现,2021,5(3):25-34. 被引量：10
5韩旭.基于Transformer-CRF的文言文断句方法研究--以唐代墓志铭为例[J].情报工程,2021,7(5):30-39.
6刘江峰,冯钰童,王东波,胡昊天,张逸勤.数字人文视域下SikuBERT增强的史籍实体识别研究[J].图书馆论坛,2022,42(10):61-72. 被引量：14
7袁义国,李斌,冯敏萱,贺胜,王东波.基于深度学习的古籍文本自动断句与标点一体化研究[J].图书情报工作,2022,66(22):134-141. 被引量：2
8李佩琪,王昊,任秋彤,范涛.融合结构特性的语义增强式古籍句读识别方法研究[J].情报学报,2023,42(2):150-163. 被引量：2
9唐雪梅,苏祺,王军,陈雨航,杨浩.基于预训练语言模型的繁体古文自动句读研究[J].中文信息学报,2023,37(8):159-168. 被引量：1

二级引证文献47

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：8
2张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170.
3俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：15
4苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
5俞敬松,魏一,张永伟.基于BERT的古文断句研究与应用[J].中文信息学报,2019,33(11):57-63. 被引量：20
6高灵霞,孙凤兰.终端用户编程的自然语言语义解析方法研究[J].西南师范大学学报（自然科学版）,2020,45(5):134-140. 被引量：4
7王珊珊,邹佳,程序,刘汪洋,蔡惠民.GSGD:一种基于BERT与本体推理的自动分级系统[J].计算机技术与发展,2020,30(8):97-102. 被引量：2
8邓三鸿,胡昊天,王昊,王东波.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20. 被引量：24
9王广祥,何世柱,刘康,余正涛,高盛祥,郭军军.融合事实文本的知识库问答方法[J].模式识别与人工智能,2021,34(3):267-274. 被引量：1
10尤丛丛,高盛祥,余正涛,毛存礼,潘润海.基于同义词数据增强的汉越神经机器翻译方法[J].计算机工程与科学,2021,43(8):1497-1502. 被引量：9

1王川,张小红,韩采华.古汉语句子切分与句读标记方法研究[J].河南大学学报（自然科学版）,2009,39(5):525-529. 被引量：2
2戴丹,胡杨,刘骊,冯旭鹏,刘利军,黄青松.基于层叠条件随机场的微博热点话题跟踪[J].计算机应用与软件,2016,33(4):56-59.
3郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明.基于层叠条件随机场的旅游领域命名实体识别[J].中文信息学报,2009,23(5):47-52. 被引量：36
4张宁.乔布斯[J].程序员,2012(1):36-37.
5张金柱,张东,王惠临.基于字位信息的中文分词方法研究[J].现代图书情报技术,2008(5):39-43. 被引量：1
6王志超,刘惠义.一种基于隐马尔可夫模型的人脸识别方法[J].计算机应用与软件,2013,30(2):304-307. 被引量：8
7刘彦伯,韩家新.iOS平台下人脸识别系统实现研究[J].计算机工程与应用,2013,49(22):204-207. 被引量：4
8刘小军,王东峰,张丽飞,时永刚,邹谋炎.一种基于奇异值分解和隐马尔可夫模型的人脸识别方法[J].计算机学报,2003,26(3):340-344. 被引量：37
9孙秋成,谭庆昌,侯跃谦.一种基于隐马尔可夫模型的虹膜识别方法[J].工程与试验,2008,48(4):41-44. 被引量：1
10胡广朋,程辉,邵玉宝.基于层叠条件随机场的网络入侵识别[J].江苏科技大学学报（自然科学版）,2008,22(5):63-66. 被引量：4

计算机应用研究

2009年第9期

浏览历史

内容加载中请稍等...

一种基于层叠CRF的古文断句与句读标记方法被引量：9

参考文献8

二级参考文献41

共引文献256

同被引文献91

引证文献9

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

一种基于层叠CRF的古文断句与句读标记方法 被引量：9

参考文献8

二级参考文献41

共引文献256

同被引文献91

引证文献9

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

一种基于层叠CRF的古文断句与句读标记方法被引量：9