以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨被引量：21

Exploring of Word Segmentation for Fore-Qin Literature Based on the Domain Glossary of Sinological Index Series

导出

摘要 [目的/意义]在人文计算兴起这一背景下,为了更加深入和精准地从古代典籍中挖掘出相应的知识,针对先秦文献进行自动分词的探究。[方法/过程]基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表,在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上,通过条件随机场模型,结合使用统计和人工内省方法确定的特征模板,完成对先秦典籍进行自动分词的探究。[结果/结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型,最好的分词模型调和平均值达到97.47%,具有较强的推广和应用价值。在构建自动分词模型的过程中,通过融入内部和外部的特征知识,模型的精确率和召回率得到有效的提升。 [ Purpose/significance ] With the rising of humanities computing, in order to more deeply and accurately mine the corresponding knowledge from the ancient classics, the Fore-Qin Literature is automatically segmented in this pa- per. [ Method/processj Based on domain glossary of Zuo Commentary from the Sinological Index Series, the paper fini- shes the segmentation of Fore-Qin Literature on the corpus of train and test which consist of Zuo Commentary and Yanzi＇ s Spring and Autum Annals by the conditional random fields which uses the feature template determined by the method of statistics and rules. [ Result/conclusion ] The segmentation models based on simple feature template, internal feature template and combined feature template are obtained under the framework of word segmentation for Fore-Qin Literature. The best F-measure of segmentation model reaches 97.47% , which has a great potential for popularization and applica- tion. In the processof constructing the model, the precision rate and recall rate of segmentation model are effectively en- hanced by merging internal and external feature knowledge.

作者黄水清王东波何琳

机构地区南京农业大学信息科学技术学院

出处《图书情报工作》 CSSCI 北大核心 2015年第11期127-133,共7页 Library and Information Service

关键词人文计算《汉学引得丛刊》条件随机场模型特征模板 humanities computing Sinological Index Series conditional random fields feature template

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Huijnen P,Laan F,Rijke M,et al. A digital humanities approach tothe history of science [J]. Social Informatics Lecture Notes in Com-puter Science, 2014,83(59) :71 -85.
2赵生辉,朱学芳.我国高校数字人文中心建设初探[J].图书情报工作,2014,58(6):64-69. 被引量：90
3孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
4刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
5姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
6赵益民.用VFP实现汉语文献的自动分词[J].图书情报工作,2002,46(11):64-66. 被引量：2
7曹自强,李素建.HDP与互信息相结合的中文无指导分词[J].中文信息学报,2013,27(6):1-5. 被引量：2
8韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
9Zhao Hai, Huang Chang-Ning, Li Mu, et al. A unified character-based, tagging method of Chinese word segmentation via conditionalrandom field modeling[ J]. ACM Transaction on Asian LanguageInformation Processing, 2010, 9(2) :1 -32.
10李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15

二级参考文献105

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2卞成林.基于信息处理的汉语工程词研究[J].广西民族大学学报（哲学社会科学版）,1999,22(1):123-127. 被引量：2
3林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
7张双圈,周拴龙.汉字信息处理三十年[J].现代图书情报技术,1994(3):49-54. 被引量：1
8金春实,丁晓青,彭良瑞,刘长松.基于词素的日文分词方法及其在OCR系统中的应用[J].微计算机信息,2006(01X):244-246. 被引量：2
9黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
10武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25

共引文献455

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2陈琳.基于知识图谱的国内数字人文研究现状分析[J].图书馆学刊,2020,0(1):89-94. 被引量：1
3黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：9
4俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
5李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
6苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
7馬海麗,王曦.古籍數字化中計算機自然語言處理應用現狀分析[J].古籍研究,2020(2):322-328. 被引量：2
8张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
9周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
10苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5

同被引文献371

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：35
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：30
3张力元,王军.古籍数据库分面分类体系设计研究[J].图书馆建设,2021(3):56-61. 被引量：15
4俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
5程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：19
6董淑平.浅论中国古代法律思想对现代法治的作用[J].法制博览,2019,0(36):247-248. 被引量：2
7化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
8赵伟,赵法兴,王东海,韩达奇.一种基于改进的最大熵模型的汉语词性自动标注的新方法[J].计算机研究与发展,2006,43(z3):174-178. 被引量：3
9李敏.《中国图书馆分类法》组织民族古籍的可行性、局限及其改造[J].图书馆建设,2009(7):16-18. 被引量：5
10杨芸,周昌乐,王雪梅,戴帅湘.基于机器理解的汉语隐喻分类研究初步[J].中文信息学报,2004,18(4):31-36. 被引量：15

引证文献21

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：30
2欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80. 被引量：106
3顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：4
4张越,王东波,朱丹浩.面向食品安全突发事件汉语分词的特征选择及模型优化研究[J].数据分析与知识发现,2017,1(2):64-72. 被引量：5
5马学良,耿兆辉,刘玲玲,王东波.哈佛燕京学社引得编纂处的成立、影响与启示[J].图书情报工作,2017,61(12):50-56. 被引量：4
6王东波,黄水清,何琳.基于多特征知识的先秦典籍词性自动标注研究[J].图书情报工作,2017,61(12):64-70. 被引量：19
7王东波,何琳,黄水清.基于支持向量机的先秦诸子典籍自动分类研究[J].图书情报工作,2017,61(12):71-76. 被引量：10
8马学良,刘玲玲.词频统计与主题分析视角下的《汉学引得丛刊》研究述评[J].河北科技图苑,2018,31(1):66-72.
9倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9
10王小红,科林.艾伦,浦江淮,李颖娜.人文知识发现的计算机实现——对“汉典古籍”主题建模的实证分析[J].自然辩证法通讯,2018,40(4):50-58. 被引量：9

二级引证文献236

1王弘治.“玄”之取象——關於《老子》中“玄”的解釋[J].诸子学刊,2022(2):54-67.
2王弘治.“道”之析義[J].诸子学刊,2022(1):1-15.
3夏翠娟.构建数智时代社会记忆的多重证据参照体系:理论与实践探索[J].中国图书馆学报,2022,48(5):86-102. 被引量：20
4陈慧,南梦洁.数字人文视域下大型体育赛事档案资源整合模式研究[J].山西档案,2022(1):27-39. 被引量：7
5黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：9
6李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
7任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
8苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：14
9毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
10高巍,万廷彬.甜菜碱对商品产蛋鸡生产性能的影响[J].中国禽业导刊,2000,17(6):16-17. 被引量：1

1王东波,吴毅,叶文豪,刘睿伦.多特征知识下的食品安全事件实体抽取研究[J].数据分析与知识发现,2017,1(3):54-61. 被引量：9
2马学良,李伟.哈佛燕京学社汉学引得丛刊的文献学价值与思想[J].河北大学学报（哲学社会科学版）,2010,35(2):94-98. 被引量：3
3汤亚芬.先秦古汉语典籍中的人名自动识别研究[J].现代图书情报技术,2013(7):63-68. 被引量：15
4马学良,孙蕊.从“整理国故”看哈佛燕京学社汉学引得丛刊的价值[J].图书情报工作,2010,54(7):111-114. 被引量：5
5黄水清,王东波,何琳.基于先秦语料库的古汉语地名自动识别模型构建研究[J].图书情报工作,2015,59(12):135-140. 被引量：40
6袁学良.论先秦典籍分类法的历史分期[J].图书与情报,2002(1):18-22. 被引量：4
7罗安宪.孔子的君子论及其现代意义[J].新华文摘,2009(11):40-42.
8止庵.谈经典的重新出版[J].出版广角,2007(3):27-27.
9高贤.面对知识经济的思考——辽宁省图书馆学会’98年会“知识经济与图书馆”专题论文综述[J].图书馆学刊,1999,21(3):10-13. 被引量：3
10李天虹.简本《晏子春秋》与今本对读札记[J].齐鲁学刊,2009(3):38-41. 被引量：4

图书情报工作

2015年第11期

浏览历史

内容加载中请稍等...

以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨被引量：21

参考文献19

二级参考文献105

共引文献455

同被引文献371

引证文献21

二级引证文献236

相关作者

相关机构

相关主题

浏览历史

以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨 被引量：21

参考文献19

二级参考文献105

共引文献455

同被引文献371

引证文献21

二级引证文献236

相关作者

相关机构

相关主题

浏览历史

以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨被引量：21