中医药古文献语料库设计与开发研究被引量：8

Research on Corpus Creation and Development of Chinese Traditional Medicine

下载PDF

导出

摘要专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。 Domain corpus is essential to the natural language processing for domain documents, especially＇for its content and intention analysis. Based on the specific research background, this paper first elaborates the necessity and significance of natural language processing for domain documents. After the analysis on the characteristics of the domain corpus, this paper probes into the design strategy and principle of domain corpus construction. Meanwhile, it also investigates into the part of speech tagging in the corpus. Finally a human-aided processing system for domain corpus is developed, providing some theoretical guidance and technique support for domain corpus construction.

作者刘耀段慧明王惠临周扬王振国李宏展

机构地区中国科学技术信息研究所北京大学计算语言学研究所山东中医药大学文献研究所

出处《中文信息学报》 CSCD 北大核心 2008年第4期24-30,共7页 Journal of Chinese Information Processing

基金国家科技支撑资助项目(2006BAH03B03) 国家973资助项目(2007CB512601) 教育部人文社科资助项目(06JC870001) 山东省中医药科技专项资助项目(2003-14)

关键词计算机应用中文信息处理自然语言处理语料库中医药古文献知识工程 computer application Chinese information processing natural language processing corpus Chinese traditional medicine document knowledge engineering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1北京中医学院.方剂学[M].上海:上海科技出版社,1964.
2王振国.当代中医基础学科群架构形成的历史局限性——兼论中医文献研究在基础学科理论构建与规范中的地位[J].山东中医药大学学报,2005,29(1):3-6. 被引量：8
3张效霞,王振国.西医教育模式对中医基础学科体系形成的影响及反思[J].中医教育,2004,23(6):51-54. 被引量：10
4俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
5俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：126
6段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
7俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6):58-64. 被引量：30

二级参考文献46

1张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：48
2朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
3段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
4俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
5张效霞,王振国.西医教育模式对中医基础学科体系形成的影响及反思[J].中医教育,2004,23(6):51-54. 被引量：10
6王振国,张效霞.近代科学思想对中医研究方法和思路的影响及反思[J].江西中医学院学报,2004,16(6):8-12. 被引量：11
7刘开会.从解释学看中国传统文化与现代化[J].甘肃社会科学,1996(2):13-15. 被引量：7
8俞士汶.中文输入中语法分析技术的应用[J].中文信息学报,1988,(3).
9赵国平.迈向21世纪的中医药文献研究[J].南京中医药大学学报,1997,13(1):3-6. 被引量：2
10闻一多.现代英国诗人[M].成都:四川人民出版社,1986,3..

共引文献204

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3吴先,胡俊峰.基于历时语料库的在线词典编纂系统设计[J].中文信息学报,2020(5):27-35. 被引量：1
4程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：9
5谭晓平.现代汉语文本语料库建设及应用现状研究[J].对外汉语研究,2018,0(1):20-29.
6姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
7化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
8刘亮.现代汉语广义助词知识库构建与应用[J].光盘技术,2008(4):14-16. 被引量：2
9杨芸,周昌乐,王雪梅,戴帅湘.基于机器理解的汉语隐喻分类研究初步[J].中文信息学报,2004,18(4):31-36. 被引量：15
10高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1

同被引文献105

1卢贺翔,李冀.脉诊与心电图QRS波的相关性探讨[J].陕西中医,2007,28(2):181-183. 被引量：4
2刘耀,穗志方,胡永伟,冀铁亮.领域Ontology自动构建研究[J].北京邮电大学学报,2006,29(z2):65-69. 被引量：5
3陈章辉,黄小晖,陈鹏飞,李文龙,朱思尧.基于双弹性网格的手写体汉字识别[J].计算机应用,2009,29(2):395-397. 被引量：9
4王砚农.谈谈“中医汉语”系列教材[J].世界汉语教学,1992,6(4):301-303. 被引量：9
5金连文,高学.几种手写体汉字网格方向特征提取法的比较研究[J].计算机应用研究,2004,21(11):38-40. 被引量：10
6蒋欣.水平集方法及其在图像分割上的应用[J].上海生物医学工程,2004,25(3):29-32. 被引量：5
7王国力,赵子婴,白金星.PVdF压电薄膜脉搏传感器的研制[J].传感技术学报,2004,17(4):688-692. 被引量：42
8王振国,刘耀.对古代科技文献信息构建的理念与方法——中医药古文献的开发与利用[J].情报资料工作,2005,26(2):32-34. 被引量：6
9姜铮铟,丁晓青.基于MQDF的英文OCR多模板分类器[J].计算机工程,2005,31(15):56-58. 被引量：4
10徐琳,赵铁军.国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述[J].软件学报,2005,16(10):1853-1858. 被引量：7

引证文献8

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：24
2刘耀.中医脉象数理量化创新方法研究[J].中国中医药信息杂志,2009,16(2):6-8. 被引量：1
3柳长青.基于Level Set方法的西夏字轮廓提取[J].中文信息学报,2009,23(4):71-76. 被引量：2
4刘耀,穗志方,胡永伟,赵庆亮.基于内容与形式交互的图书馆资源组织语义化方法研究[J].情报理论与实践,2010,33(10):105-107. 被引量：15
5门光福,潘晨,柳长青.基于弹性网格的西夏文字识别[J].中文信息学报,2011,25(5):109-113. 被引量：4
6闻永毅,王治梅,杨婷.中医文献语料库自动分词中的新词发现研究[J].西部中医药,2018,31(9):71-74.
7李易真,夏椰,张佳玮,张雨楠,赵磊,窦智丽,韩东燃.中医药大数据在真实世界中的应用现状研究进展[J].中华中医药杂志,2021,36(6):3471-3474. 被引量：7
8委李楠,张丽,薄彤.浅谈中医汉语语料库的建设[J].中国中医药现代远程教育,2023,21(24):7-9. 被引量：1

二级引证文献53

1李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622.
2徐安迎,胡孔法,杨涛.基于Neo4j的肺癌中医诊疗知识图谱构建研究[J].世界科学技术-中医药现代化,2023,25(4):1456-1461. 被引量：3
3孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：2
4门光福,潘晨,柳长青.基于弹性网格的西夏文字识别[J].中文信息学报,2011,25(5):109-113. 被引量：4
5王睿佳,刘耀.面向科技文献的多模态语义关联特征提取与表达体系研究[J].大学图书馆学报,2012,30(5):71-76. 被引量：8
6王菲菲,邱均平,余凡,赵蓉英.信息计量学视角下的数字文献资源语义化关联揭示[J].图书情报工作,2014,58(7):12-18. 被引量：8
7李佳南,王曰芬,颜端武.馆藏资源语义知识库及服务平台构建探究--以台湾问题为例[J].图书馆学研究,2014(22):29-35. 被引量：3
8肖婷婷,邱均平,祖旋,郭丽琳.语义标注研究热点与演进历程的知识图谱分析[J].情报理论与实践,2015,38(1):1-6. 被引量：4
9邱均平,王菲菲.数字文献资源语义化计量本体的提出与构建[J].情报学报,2014,33(10):1012-1021. 被引量：7
10赵蓉英,程震霖.国内馆藏数字资源语义化研究现状[J].信息资源管理学报,2015,5(2):97-103.

1芦璐.基于TCP协议的网络应用设计与开发研究[J].网友世界,2014,0(19):36-36.
2郑艳.微课程的设计与开发研究[J].电脑知识与技术（过刊）,2015,21(10X):93-94. 被引量：1
3徐胜云.电子签章制作系统设计与开发研究[J].山东工业技术,2016(10):150-150. 被引量：1
4杨宇,林锦国,巫振新.文摘语料库研究[J].术语标准化与信息技术,2011(3):36-41.
5林传利.用数据库语言实现在五笔输入模块中扩充物理词组[J].重庆师范大学学报（自然科学版）,1999,18(S1):91-93.
6宋杨.多媒体教学软件的设计与开发研究[J].计算机光盘软件与应用,2014,17(12):213-213. 被引量：2
7李福琳.网络课件的设计与开发研究[J].信息安全与技术,2015,6(4):91-92 96.
8王西龙.通用串行总线(USB)设备的设计与开发研究[J].西安邮电学院学报,2005,10(4):139-142. 被引量：3
9巫振新,林锦国,杨宇.专业语料库建立及其在机器翻译中的应用[J].微型电脑应用,2008,24(4):62-64. 被引量：4
10巫振新,林锦国,杨宇.专业语料库建立及其在机器翻译中的应用[J].现代计算机,2008,14(2):84-86. 被引量：2

中文信息学报

2008年第4期

浏览历史

内容加载中请稍等...

中医药古文献语料库设计与开发研究被引量：8

参考文献7

二级参考文献46

共引文献204

同被引文献105

引证文献8

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

中医药古文献语料库设计与开发研究 被引量：8

参考文献7

二级参考文献46

共引文献204

同被引文献105

引证文献8

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

中医药古文献语料库设计与开发研究被引量：8