学术文献术语抽取方案比较研究被引量：5

A Comparative Study of Term Extraction Schemes in Academic Literature

下载PDF

导出

摘要术语抽取是学术文献知识挖掘的关键技术,其研究目标是提升学术文献领域术语抽取的效率。目前术语抽取主要分为三类方法,即基于规则的方法、基于统计学的方法、基于监督学习的方法。首先,本文对术语抽取中的代表方法进行了实验对比研究,包括语言学、统计学(TF-IDF、C-value、基于KL散度的方法等)、CRF及Bi-LSTM方法;其次,针对目前学术文献中术语抽取缺乏大量的手工标注语料的问题,提出了应用于当前学术文献术语抽取的改进模型;最后,总结了实验发现并提出了现阶段学术文献术语抽取及语料标注的方案。 Term extraction from research articles is one of the key technologies in literature knowledge mining.The goal is to improve the efficiency of term extraction.Nowadays,term extraction can be classified into three categories,that is,rule-based method,statistical method and supervised learning method.Firstly,this paper carries out the comparative study on term extraction by experimental methods,including linguistic method,statistical method(TF-IDF,C-value,KL dispersion-based methods,etc.),CRF,and Bi-LSTM.Secondly,since lacking of massive corpus labeling by manual,therefore,this paper presents an improved model for term extraction task in academic literature.Finally,this article summarizes the experimental findings and proposes the methodologies of semantic entity recognition for the current stage.

作者蒋婷 Jiang Ting(School of Information Engineering,Nanjing University of Finance and Economics,Nanjing,210046)

机构地区南京财经大学信息工程学院

出处《信息资源管理学报》 CSSCI 2021年第1期112-122,共11页 Journal of Information Resources Management

基金国家自然科学基金青年项目(71904078) 江苏省自然科学基金(BK20190793) 江苏高校哲学社会科学研究基金(2018SJA0263)的研究成果之一。

关键词语义网学术文献术语抽取知识图谱语料标注概念学习 Semantic web Research article Term extraction Knowledge graph Corpus annotation Concept learning

分类号 G203 [文化科学—传播学]

引文网络
相关文献

参考文献10

1徐川,施水才,房祥,吕学强.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179. 被引量：10
2王健,殷旭,吕学强,徐丽萍.基于CRFs的专利文献领域术语抽取方法[J].计算机工程与设计,2019,40(1):279-284. 被引量：11
3马建霞,袁慧,蒋翔.基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究[J].数据分析与知识发现,2020,4(2):78-88. 被引量：8
4赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9
5章成志.基于多层术语度的一体化术语抽取研究[J].情报学报,2011,30(3):275-285. 被引量：19
6赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报,2018,37(9):923-938. 被引量：39
7王密平,王昊,邓三鸿,吴志祥.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016(6):28-36. 被引量：13
8化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30
9曾文,徐硕,张运良,翟娟华.科技文献术语的自动抽取技术研究与分析[J].现代图书情报技术,2014(1):51-55. 被引量：16
10刘宇飞,尹力,张凯,杨建中,郑文江.基于深度迁移学习的技术术语识别——以数控系统领域为例[J].情报杂志,2019,38(10):168-175. 被引量：18

二级参考文献129

1姜小波,陈杰,仇玉林.一种简化的 SOVA算法[J].电子器件,2004,27(3):467-469. 被引量：1
2侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
3葛煦,卢宝华,杨湘华.谈高校科技发展中专利文献的利用[J].技术与创新管理,2005,26(1):68-70. 被引量：6
4杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
5周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
6姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
7梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006,50(9):18-21. 被引量：13
8何燕,穗志方,段慧明,俞士汶.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7. 被引量：17
9刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
10何燕,穗志方,段慧明,李素建.基于专业术语词典的自动领域本体构造[J].情报学报,2007,26(1):65-70. 被引量：13

共引文献136

1马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：8
2赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
3吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
4唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11.
5李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：3
6李丽双,党延忠,张婧,李丹.基于条件随机场的汽车领域术语抽取[J].大连理工大学学报,2013,53(2):267-272. 被引量：17
7化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30
8刘胜奇,朱东华.TValue术语抽取法[J].情报学报,2013,32(11):1164-1173. 被引量：4
9汤青,吕学强,李卓,施水才.领域本体术语抽取研究[J].现代图书情报技术,2014(1):43-50. 被引量：10
10谢靖,陈静,王东波.齐普夫定律在中文短语知识中的呈现[J].情报学报,2014,33(1):11-22. 被引量：5

同被引文献81

1杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
2魏朝俊,闫树刚,唐剑.高校大型精密仪器设备使用效益的评价分析[J].中国现代教育装备,2011(5):12-14. 被引量：16
3王雪莹.3D打印技术与产业的发展及前景分析[J].中国高新技术企业,2012(26):3-5. 被引量：375
4胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
5化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30
6熊李艳,谭龙,钟茂生.基于有效词频的改进C-value自动术语抽取方法[J].现代图书情报技术,2013(9):54-59. 被引量：11
7张婷,安嘉璐.基于文献计量学的药学科研仪器发展趋势研究[J].中国医药导报,2014,11(12):129-133. 被引量：3
8吴家皋,周凡坤,张雪英.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报（自然科学版）,2014,37(1):30-34. 被引量：10
9杨海涛.基于规则的多种策略句法分析[J].软件导刊,2014,13(10):63-64. 被引量：1
10邹晓辉,孙静.LDA主题模型[J].智能计算机与应用,2014,4(5):105-106. 被引量：17

引证文献5

1唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11.
2彭玉芳,陈将浩.基于深度学习与需求规则融合的学术文献“目标数据”抽取模型构建与应用——以南海数字资源为例[J].情报科学,2022,40(1):141-147. 被引量：6
3范午攸.基于全文的科研文献中仪器命名实体识别(NER)研究与实践[J].图书馆杂志,2022,41(3):126-134.
4朱俊杰,余丽,李圣文,周长征.综合成分句法分析的技术名称识别[J].计算机应用,2024,44(4):1072-1079.
5余传明,邓斌,谈腊云,盛博.基于XLNET和GAT的句法信息增强事件抽取模型[J].数据分析与知识发现,2024,8(4):26-38.

二级引证文献6

1杨秀璋,武帅,宋籍文,廖文婧,任天舒,刘建义.基于LDA和关系图谱的数据治理文献主题演化研究[J].信息技术与信息化,2022(8):6-12. 被引量：2
2齐小英,李昕尉,杨海平.基于意图和情感的南海学术论文引用特征研究[J].数据分析与知识发现,2022,6(12):53-69. 被引量：3
3程为,司徒凌云,郑德俊,王燕红,石进.面向南海叙事的事件要素自动抽取方法研究[J].情报科学,2023,41(3):155-163. 被引量：4
4程为,郑轩昂,郑德俊,杨海平,王燕红.面向学术全文本的南海维权证据知识元自动识别研究[J].情报杂志,2023,42(9):141-148. 被引量：3
5陈海宇.基于深度模块训练的数据库查询效率预测研究[J].成都工业学院学报,2024,27(1):42-46.
6宋亭.基于决策树的图书馆文献资源智能检索方法[J].自动化技术与应用,2024,43(4):63-66.

1俞敬松,吴聪,曹喜信.政府公文领域细粒度命名实体识别的实用化研究与设计[J].微纳电子与智能制造,2020,2(3):23-29. 被引量：2
2胡佳慧,赵琬清,方安,范云满.基于主动学习的中文电子病历命名实体识别研究[J].中国数字医学,2020,15(11):6-9. 被引量：1
3黄开析.思维导图在初中化学概念教学中应用探析[J].读与写（中旬）,2021(1):264-264.
4任雪菁,安新颖,范少萍,张飞,黄裕翔.基于词典与CRF算法的中文生物医学实体自动标注平台建设[J].中华医学图书情报杂志,2020,29(9):29-35. 被引量：2
5龙润田.采用声调基频特征的民族语声调识别[J].贵州民族研究,2020,41(11):123-127.
6田深圳,李守伟,李雪铭.我国滨海城市网络时空格局研究——基于2012-2019年百度指数数据[J].城市问题,2020(8):14-21. 被引量：7

信息资源管理学报

2021年第1期

浏览历史

内容加载中请稍等...

学术文献术语抽取方案比较研究被引量：5

参考文献10

二级参考文献129

共引文献136

同被引文献81

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

学术文献术语抽取方案比较研究 被引量：5

参考文献10

二级参考文献129

共引文献136

同被引文献81

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

学术文献术语抽取方案比较研究被引量：5