中文生物医学文本无词典分词方法研究被引量：4

Research on Method for Chinese Word Segmentation without Thesaurus in Chinese Biomedical Text

下载PDF

导出

摘要为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值. In order to segment Chinese biomedical text without thesaurus, combining with the characteristics of Chinese biomedical text, such as lots of specialized terms, new terms emerging and Structured Abstract, the paper introduces a method of Chinese word segmentation without thesaurus based on recurrence, and improves it in the process of practical ap-plication in two ways. First, do not set the upper limit of the length of terms, second, extracting terms and hierarchical terms at one time. Experimental results show that, without the help of thesaurus and corpus learning, the algorithm can extract the crucial specialized terms in the biomedical text effectively, and the Accuracy Rate is about 84. 51%. Finally, a preliminary study for the word length distribution in the field of biomedicine has been done, and the results prove that, the word length distribution in the field of Chinese biomedicine is very different from General Chinese's, it could provide reference for determining the value of N in N-gram model in the process of Chinese biomedical text.

作者王军辉胡铁军李丹亚钱庆方安

机构地区中国医学科学院医学信息研究所

出处《情报学报》 CSSCI 北大核心 2011年第2期197-203,共7页 Journal of the China Society for Scientific and Technical Information

关键词无词典分词结构式摘要生物医学文本 Chinese word segmentation without thesaurus structured abstract biomedical text

分类号 G35 [文化科学—情报学]

引文网络
相关文献

参考文献10

1刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
2王军辉,胡铁军,李丹亚.基于重现的无词典分词方法在中文生物医学文本挖掘中的应用[J].医学信息学杂志,2009,30(2):21-25. 被引量：5
3黄科,马少平.基于统计分词的中文网页分类[J].中文信息学报,2002,16(6):25-31. 被引量：16
4张树武,黄泰翼.汉语统计语言模型的N值分析[J].中文信息学报,1998,12(1):35-41. 被引量：8
5胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘中的无词典分词的算法及其应用[J].吉林工学院学报（自然科学版）,2002,23(1):16-18. 被引量：26
6姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
7姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
8刘雪立,乔汉臣.结构式摘要及其在生物医学期刊中的应用[J].新乡医学院学报,1991,8(2):87-90. 被引量：10
9韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
10何浩,杨海棠.一种基于N-Gram技术的中文文献自动分类方法[J].情报学报,2002,21(4):421-427. 被引量：18

二级参考文献59

1刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
2袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：58
3姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
4王永成等.中文信息处理技术及其基础[M].上海交通大学出版社,1993.92-110.
5王还常宝儒.现代汉语频率词典[M].北京:北京语言学院出版社,1986..
6William J.F.,Gregory P.-S.,Christopher J.M.Knowledge Discovery in Databases:an overview[J].AI Mag.,1992,13 (3):57-70.
7William M.Pottenger,Yong-Bin Kin,Daryl D.Meling.HDDI《'TM》:hierarchical distributed dynamic indexing[EB/ OL].[2008-10-17].http://www.dimacs,rutgers.edu/～billp/pubs/HDDIFinalChapter,pdf.
8Swanson D.R.Fish-oil,Raynaud's Syndrome,and Undiscovered Public Knowledge[J].Perspectives in Biology and Medicine,1986,30 (1):7-18.
9Swanson D.R.Two Medical Literatures that are Logically but not Bibliographically Connected[J].Journal of the American Society for Information Science,1987,38 (4:228-233.
10吴竞存，现代汉语句法结构与分析，1992年

共引文献108

1余培瑕,陈善元.浅谈科技论文题名结构和摘要规范性写作方法[J].科技传播,2023,15(17):25-29. 被引量：1
2蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
3曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
4李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
5于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
6刘涌泉.信息社会和术语学[J].情报科学,1993,14(5):21-24. 被引量：4
7周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
10王晔,黄上腾.Apriori and N-gram Based Chinese Text Feature Extraction Method[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):11-14. 被引量：4

同被引文献48

1陈传夫,于媛.美国iSchool的趋势与启示[J].图书情报工作,2007,51(4):20-24. 被引量：72
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
3吕元智,王心裁,谭必勇.基于主题地图的电子政务信息资源组织研究[J].中国图书馆学报,2007,33(4):73-76. 被引量：27
4刘耀,穗志方,周扬,章成志,王振国.中医药本体构建研究[J].大学图书馆学报,2008,26(4):58-62. 被引量：14
5姜春林,杜维滨,李江波.经济学研究热点领域知识图谱:共词分析视角[J].情报杂志,2008,27(9):78-80. 被引量：103
6姜春林,李江波,杜维滨.基于CSSCI的我国管理学研究热点可视化分析[J].图书情报工作,2008,52(12):55-58. 被引量：25
7邢军,韩敏.基于两层向量空间模型和模糊FCA本体学习方法[J].计算机研究与发展,2009,46(3):443-451. 被引量：13
8杨良斌,金碧辉.跨学科测度指标体系的构建研究[J].情报杂志,2009,28(7):65-69. 被引量：33
9张桂平,刘东生,尹宝生,徐立军,苗雪雷.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116. 被引量：17
10苏新宁.提升图书情报学学科地位的思考——基于CSSCI的实证分析[J].中国图书馆学报,2010,36(4):47-53. 被引量：55

引证文献4

1黄崑,张路路,宋筱璇,罗文馨,李梅.2003-2012年国内图情领域研究的跨学科发展研究——以《中图学报》和《情报学报》为例[J].情报工程,2015,1(3):55-63. 被引量：2
2唐晓波,伍星蓉.基于形式概念分析的面向药物适应症的领域本体构建方法[J].情报杂志,2017,36(12):159-165. 被引量：7
3倪维健,孙浩浩,刘彤,曾庆田.面向领域文献的无监督中文分词自动优化方法[J].数据分析与知识发现,2018,2(2):96-104. 被引量：9
4王军辉.创新驱动发展战略背景下我国科技评价工作的政策性需求分析[J].全球科技经济瞭望,2022,37(7):7-14. 被引量：3

二级引证文献21

1谢泽宇,施国良,杨汉钰,潘奕慧.国际淡水争端领域分面本体构建与应用[J].情报杂志,2018,37(11):192-196. 被引量：3
2蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛.基于领域词典的动态规划分词算法[J].南京理工大学学报,2019,43(1):63-71. 被引量：16
3李志珂,李俊.一种基于形式概念分析的术语定义方法[J].数码设计,2019,8(9):27-30.
4尤众喜,华薇娜,潘雪莲.中文分词器对图书评论和情感词典匹配程度的影响[J].数据分析与知识发现,2019,3(7):23-33. 被引量：18
5仇国芳,王举.基于概念格的施工安全事故知识发现研究[J].安全与环境学报,2019,19(5):1625-1630. 被引量：1
6陈晓燕,贾珊,何有世.基于深度学习的领域本体构建研究——以汽车领域为例[J].情报杂志,2020,39(1):174-178. 被引量：7
7洪亮,石晓月.医学本体构建方法研究——以脑区与自闭症为例[J].信息资源管理学报,2020,10(2):80-90. 被引量：5
8赵洁,司莉.国内外生物医学领域本体研究与实践进展[J].数字图书馆论坛,2020(8):7-14. 被引量：8
9胡潇涛,吴浩,杨亮,顾小平,宋弘.基于伪标注样本融合的领域分词方法[J].四川轻化工大学学报（自然科学版）,2021,34(1):48-55. 被引量：1
10龚花萍,梅娇,胡春琦.管理学科与图情学科跨学科知识交流对比研究[J].图书馆研究与工作,2021(6):62-71. 被引量：3

1投稿须知[J].商业研究,2009(6):16-16.
2邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
3魏明.小议“零次文献”[J].图书馆学研究,1987(2):40-42. 被引量：1
4刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4
5刘青芬,雷春炳.引文索引与中文生物医学引文数据库[J].中国索引,2005,3(1):49-53. 被引量：1
6马天驹.开发文献资源为经济建设服务——谈图书馆的参考咨询工作[J].黑龙江图书馆,1990(2):44-45.
7论文摘要的编写要求[J].闽江学院学报,2015,36(6):120-120.
8符加广.中文生物医学期刊的订购途径[J].中华医学图书馆杂志,2000,9(2):35-37. 被引量：2
9薛翠芳,郭炳炎.汉语文本特征词的抽取方法[J].情报学报,2000,19(3):242-247. 被引量：21
10顾光燧.消除语言障碍方便农民收听[J].视听界,1991(3):29-29.

情报学报

2011年第2期

浏览历史

内容加载中请稍等...

中文生物医学文本无词典分词方法研究被引量：4

参考文献10

二级参考文献59

共引文献108

同被引文献48

引证文献4

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

中文生物医学文本无词典分词方法研究 被引量：4

参考文献10

二级参考文献59

共引文献108

同被引文献48

引证文献4

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

中文生物医学文本无词典分词方法研究被引量：4