深加工中古汉语语料库建设的若干问题被引量：9

Key Issues in the Construction of Deep-processed Corpus of Middle Chinese

下载PDF

导出

摘要根据中古汉语的基本特点,结合现有语料库的建设经验,阐述中古汉语语料库选取语料的若干原则:语料样本的代表性、文本类型的平衡性、语料之间的关联性与区别度、入库文献的特色性;讨论建立中古汉语语料库分词规范、分词词表的可行性,初步构建"信息处理用中古汉语分词规范"的整体框架。 According to the basic characteristics of Middle Chinese,combined with the experience from existing corpus,the paper researches into several principles of the selection of texts,such as representative samples of texts,the balance of text type,the degree of the correlation and distinction between various kinds of texts,the character of samples selected from all texts.Then,the paper discusses the feasibility of building a word-segmented criterion and a word-segmented corpus of Middle Chinese.A tentative overall framework of'word-segmented criterion for information processing based on middle Chinese'is constructed.

作者化振红

机构地区南京师范大学文学院

出处《西南大学学报（社会科学版）》 CSSCI 北大核心 2014年第3期136-142,184,共7页 Journal of Southwest University(Social Sciences Edition)

基金国家社会科学基金重大项目"汉语史语料库建设研究"(10&ZD117) 项目负责人:董志翘教育部人文社会科学规划项目"中古近代农业俗词语研究"(10YJA740033) 项目负责人:化振红

关键词中古汉语汉语史语料库分词规范切分原则词类划分

分类号 H109.2 [语言文字—汉语]

引文网络
相关文献

参考文献2

1缪启愉.四时纂要校释[M].北京:农业出版社,1981:1,54.
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250

二级参考文献6

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16

共引文献252

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
7李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
8冯学锋,黄璐琦,格小光,杨连菊,杨京玉.山药道地药材形成源流考[J].中国中药杂志,2008,33(7):859-862. 被引量：40
9麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
10王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.

同被引文献58

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
4化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
5冯志伟.标准通用置标语言SGML及其在自然语言处理中的应用[J].当代语言学,1998(4):2-12. 被引量：8
6孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
7孙宏林.浅谈汉语分词的标准[J].语言文字应用,1997(4):107-110. 被引量：6
8袁毓林.关于分词规范和规范词表的若干意见[J].语言文字应用,1997(4):111-111. 被引量：2
9黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
10黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6

引证文献9

1赵红.吐鲁番文献与汉语语料库建设的若干思考[J].南京师范大学文学院学报,2014(3):155-158. 被引量：2
2王晓玉.中古汉语语料库的设计与实现[J].辞书研究,2017(3):17-26. 被引量：7
3王晓玉,李斌.基于CRFs和词典信息的中古汉语自动分词[J].数据分析与知识发现,2017,1(5):62-70. 被引量：25
4王晓玉.论中古语料库古籍电子化相关问题[J].古籍整理研究学刊,2018,0(4):103-108. 被引量：1
5付璐,李思,李明正,朱彦.以清代医籍为例探讨中医古籍分词规范标准[J].中华中医药杂志,2018,33(10):4700-4705. 被引量：13
6康宁,陈冰云.敦煌文献多模态语料库建设初探[J].青岛科技大学学报（社会科学版）,2018,34(4):110-114. 被引量：2
7化振红.试论中古汉语语料库佛教文献分词规范[J].东南大学学报（哲学社会科学版）,2019,21(1):135-142. 被引量：2
8李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊,2019,18(4):60-63. 被引量：5
9郑童哲恒,李斌.上古汉语分词与词性标注加工规范——基于《史记》深加工语料库的标注实践[J].语言文字应用,2023(4):93-104. 被引量：1

二级引证文献47

1任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：21
4化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
5杨世超,纪月,赵立鹏.基于条件随机场的古汉语分词研究[J].电脑知识与技术,2017,13(8):183-184. 被引量：3
6倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9
7王晓玉,赵家栋.佛教类书与所出原经深加工平行语料库建设与研究——以《经律异相》《法苑珠林》为样本[J].南京师范大学文学院学报,2018(2):135-142. 被引量：1
8蒋彦廷,张健铖.基于统计分析的“中国风”歌曲词汇研究[J].成都理工大学学报（社会科学版）,2018,26(5):68-75.
9康宁,陈冰云.敦煌文献多模态语料库建设初探[J].青岛科技大学学报（社会科学版）,2018,34(4):110-114. 被引量：2
10李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊,2019,18(4):60-63. 被引量：5

1刘波,赵硕,惠洁.语言学直接成分分析法近80年研究状况及启示[J].长春大学学报,2012,22(9):1084-1087.
2王群力.对“没问题”等三种“副+名”例证的质疑[J].汉语学习,2003(5):38-40. 被引量：1
3张慧芳.汉语词汇分词规范的理念和实践[J].北方文学（下）,2014,0(10):106-108.
4李迅.自动分词与分词规范——关于《信息处理现代汉语分词规范》的重新思考[J].山东文学,2010(1):124-125.
5常万里.依托语境的词汇教学实践研究[J].中小学外语教学,2010,33(12):18-22. 被引量：19
6卢东民,袁建伟.英汉互译中实现“得体原则”之探赜[J].安阳工学院学报,2008,7(1):87-90.
7彭泽润,林思佳.从两个国家标准看汉语的词[J].北华大学学报（社会科学版）,2006,7(6):63-68. 被引量：2
8王丽军.轮机英语句法特点及翻译技巧[J].科教文汇,2009(17):175-176.
9郑博.探析中文信息处理中的“词”及分词标准问题——试比较《分词规范》与《正词法》[J].南宁职业技术学院学报,2011,16(2):72-75.
10陈湘柳.汉语自动分词理论对英语教学的启示[J].榆林学院学报,2010,20(1):104-106.

西南大学学报（社会科学版）

2014年第3期

浏览历史

内容加载中请稍等...

深加工中古汉语语料库建设的若干问题被引量：9

参考文献2

二级参考文献6

共引文献252

同被引文献58

引证文献9

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

深加工中古汉语语料库建设的若干问题 被引量：9

参考文献2

二级参考文献6

共引文献252

同被引文献58

引证文献9

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

深加工中古汉语语料库建设的若干问题被引量：9