基于特征融合的术语型引用对象自动识别方法研究被引量：8

Automatic Identification of Term Citation Object with Feature Fusion

导出

摘要【目的】设计特征融合和伪标签降噪策略,探索科技论文术语型引用对象自动识别方法。【方法】将术语型引用对象识别转换为序列标注问题,在BiLSTM-CNN-CRF输入层融合术语型引用对象的语言学和启发式两大类特征,增强引用对象的特征表示,设计伪标签学习降噪机制,采用半监督学习方法探究不同特征组合对识别效果的影响。【结果】本方法在术语型引用对象识别任务中最优F1值达到0.6018,比BERT模型实验结果提升8%。【局限】实验数据仅涉及计算机领域,在其他领域的可移植性有待考证。【结论】基于特征融合的深度学习方法在术语型引用对象的识别中有较好性能,伪标签学习方法解决了引用对象标注数据不足的问题,两者结合有效地探索了术语型引用对象自动化识别方法。 [Objective]This paper explores methods automatically identifying term citation objects from scientific papers,with feature fusion and pseudo-label noise reduction strategy.[Methods]First,we converted the identification of term citation objects into sequential annotation.Then,we combined linguistic and heuristic features of term citation objects in the BiLSTM-CNN-CRF input layer,which enhanced their feature representations.Finally,we designed pseudo-label learning noise reduction mechanism,and compared the performance of different models.[Results]The optimal F1 value of our method reached 0.6018,which was 8%higher than that of the BERT model.[Limitations]The experimental data was collected from computer science articles,thus,our model needs to be examined with data from other fields.[Conclusions]The proposed method could effectively identify term citation objects.

作者马娜张智雄吴朋民 Ma Na;Zhang Zhixiong;Wu Pengmin(National Science Library,Chinese Academy of Sciences,Beijing 100190,China;School of Economic and Management,University of Chinese Academy of Sciences,Beijing 100190,China;Wuhan Library,Chinese Academy of Sciences,Wuhan 430071,China;Hubei Key Laboratory of Big Data in Science and Technology,Wuhan 430071,China;Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

机构地区中国科学院文献情报中心中国科学院大学经济管理学院图书情报与档案管理系中国科学院武汉文献情报中心科技大数据湖北省重点实验室中国科学院自动化研究所

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第1期89-98,共10页 Data Analysis and Knowledge Discovery

基金中国科学院基金项目“科技文献丰富语义检索应用示范”(项目编号:院1734)的研究成果之一.

关键词引用对象识别特征融合伪标签学习 BiLSTM-CNN-CRF Citation Object Identification Feature Fusion Pseudo-Label Learning BiLSTM-CNN-CRF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1赵蓉英,曾宪琴,陈必坤.全文本引文分析——引文分析的新发展[J].图书情报工作,2014,58(9):129-135. 被引量：57
2赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报,2018,37(9):923-938. 被引量：40

二级参考文献54

1张明宝,马静.基于UIMA的企业非结构信息资源管理系统研究[J].计算机系统应用,2008,17(10):15-19. 被引量：2
2姜小波,陈杰,仇玉林.一种简化的 SOVA算法[J].电子器件,2004,27(3):467-469. 被引量：1
3张群.文本挖掘技术及其在专利信息分析中的应用[J].现代情报,2006,26(3):209-210. 被引量：9
4杨建祖,顾小卓,杜晓宁,胡捍英.SOVA算法对Viterbi算法的修正[J].通信技术,2007,40(4):4-6. 被引量：4
5王芳.情报学的范式变迁及元理论研究[J].情报学报,2007,26(5):764-773. 被引量：31
6Kaplan N. The norms of citation behavior: Prolegomena to the footnote [J]. American Documentation, 1965, 16 (3) : 179-184.
7Liu Mengxiong. Progress in documentation the complexities of citation practice: A review of citation studies [J]. Journal of Documentation, 1993, 49(4): 370-408.
8Case D O, Higgins G M.How can we investigate citation behavior? A study of reasons for citing literature in communication [J]. Journal of the American Society for Information Science, 2000, 51(7):635-645.
9Chubin D. Is citation analysis a legitimate evaluation tool [J]. Scientometrics,1980, 2(1) : 91-92.
10Bornmann L, Daniel H. What do citation counts measure? A review of studies on citing behavior [J]. Journal of Documentation, 2008, 64(1):45-80.

共引文献95

1杨思洛,陈志灵.全文计量视角下知识交流体系研究的模式探析[J].知识管理论坛,2024(4):380-393.
2唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：3
3耿树青,杨建林.基于引用情感的论文学术影响力评价方法研究[J].情报理论与实践,2018,41(12):93-98. 被引量：36
4刘盛博,丁堃,张春博.引文分析的新阶段:从引文著录分析到引用内容分析[J].图书情报知识,2015,32(3):25-34. 被引量：34
5陈少涌.2014年我国情报学研究进展[J].山东图书馆学刊,2015(5):21-28. 被引量：4
6步一,刘天祎,黄文彬.优化传统作者共引分析的研究初探——综合引文发表时间信息的作者共引分析方法[J].图书情报知识,2015,32(6):89-97. 被引量：10
7张艺蔓,马秀峰,程结晶.融合引文内容和全文本引文分析的知识流动研究[J].情报杂志,2015,34(11):50-54. 被引量：27
8步一,刘天祎,赵丹群,黄文彬.国外作者共引分析研究评述[J].情报杂志,2015,34(12):48-53. 被引量：13
9吴爱芝.文献计量学在图书馆业务中的应用现状与前景[J].河南图书馆学刊,2016,36(3):60-63. 被引量：7
10杨春艳,潘有能,赵莉.基于语义和引用加权的文献主题提取研究[J].图书情报工作,2016,60(9):131-138. 被引量：9

同被引文献135

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2韦入铭,陈若愚,李晗,刘旭红.基于深度学习与文本计量的技术趋势分析[J].计算机科学,2022,49(S02):37-42. 被引量：3
3安世虎,贺国光.KMS中知识的一般参考框架[J].图书情报工作,2005,49(8):41-43. 被引量：3
4刘臣,张庆普,单伟,田占伟.基于语义的社会网络关联路径评价及其应用[J].情报学报,2011,30(2):172-182. 被引量：5
5徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：382
6刘建华,张智雄,徐健,许雁冬.自动术语识别--对科技文献进行文本挖掘的重要技术方法[J].现代图书情报技术,2008(8):12-17. 被引量：12
7岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：37
8孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：98
9王凌燕,方曙,季培培.利用专利文献识别新兴技术主题的技术框架研究[J].图书情报工作,2011,55(18):74-78. 被引量：50
10邱均平.信息计量学(一)第一讲信息计量学的兴起和发展[J].情报理论与实践,2000,23(1):75-80. 被引量：95

引证文献8

1葛富斌,沈欣.知识图谱技术在专利语义检索领域的应用研究[J].中国发明与专利,2022,19(1):10-18. 被引量：2
2胡雅敏,吴晓燕,陈方.基于机器学习的技术术语识别研究综述[J].数据分析与知识发现,2022,6(2):7-17. 被引量：13
3唐晓波,彭映寒.科技论文引用对象和引文功能的联合自动识别方法研究[J].现代情报,2022,42(6):38-48. 被引量：1
4王佳敏,陆伟,程齐凯,秦春秀.基于细粒度关键词引用网络的领域知识多维分析[J].情报学报,2022,41(7):733-744. 被引量：1
5魏晓俊,谭宗颖,吕千千.基于引用内容的成果价值点发现方法研究[J].图书情报工作,2023,67(6):116-124.
6王希雅,张宁,程馨.文本细粒度情绪识别方法与应用综述[J].计算机科学,2023,50(S01):580-586.
7刘春丽,陈爽.科学文献中的知识实体抽取与评价研究综述[J].现代情报,2023,43(12):143-163. 被引量：1
8胡昊天,邓三鸿,孔玲,闫晓慧,杨文霞,王东波,沈思.生成式情报学术语自动抽取与多维关联知识挖掘研究[J].情报学报,2024,43(5):588-600.

二级引证文献18

1江超.激光增材制造技术专利概况[J].现代信息科技,2022,6(10):121-123.
2江祥奎,丁锐,胡浩昌,邬游.植物常见病虫害识别系统的设计与实现[J].西安邮电大学学报,2022,27(4):95-100.
3胡雅敏,吴晓燕,廖兴滨,钱杨舸,陈方.融合深度学习和链路预测的细粒度技术预测研究--以合成生物技术为例[J].图书情报工作,2022,66(24):92-103. 被引量：2
4邱国栋,任博.机器学习与行动者能力:技术可供性视角——以谷歌AlphaGo为案例[J].科技进步与对策,2023,40(14):1-11. 被引量：2
5梁瑞文,毛进,芦昆,李纲.生物医学领域技术方法的知识增长模式研究[J].情报理论与实践,2023,46(8):104-112. 被引量：1
6张运良,王力.知识图谱中的技术实体组织研究[J].网络新媒体技术,2023,12(3):1-9.
7刘春丽,陈爽.科学文献中的知识实体抽取与评价研究综述[J].现代情报,2023,43(12):143-163. 被引量：1
8武月佳,周建涛.DL+:一种增强型双层知识图谱推理框架[J].计算机科学,2023,50(12):302-313. 被引量：1
9陈翀,高欣妍,黄红.基于BLSTM-CRF的自举式术语识别方法研究[J].情报工程,2023,9(5):97-111. 被引量：1
10吕学强,杨雨婷,肖刚,李育贤,游新冬.稀疏样本下长术语的抽取方法[J].数据分析与知识发现,2024,8(1):135-145.

1张姝.网页设计中计算机图像处理技术的应用[J].中外企业家,2020,0(16):133-134. 被引量：2
2蒋美荣.探析附加隔声腔的电力电容降噪策略[J].市场周刊·理论版,2019(40):203-203.
3叶成建.变电站的噪音源分析及降噪策略[J].电工技术（下半月）,2016(12):76-77.
4张景中.有用的二进制[J].中学生数理化（七年级数学）（人教版）,2020,0(4):3-3.
5杨欢,幸芦笙.基于SIFT和DDIS的智能立体仓库货物自动识别[J].五邑大学学报（自然科学版）,2020,34(1):68-72.
6田玉倩,张文华.SQL Server 2008数据库完整性的应用探索[J].中外企业家,2020,0(14):135-135. 被引量：6
7张宇亭.K-means的应用混合数据算法[J].现代计算机,2020,26(13):22-25. 被引量：1
8苏钰生,王亚飞,李学华.基于改进密集连接型网络的光场深度估计[J].计算机工程与应用,2020,56(11):142-148. 被引量：2
9张宪荣.济宁市2006年HIV-Ab监测结果分析[J].中国保健,2007,15(14):27-28.
10李伯阳,刘文海.基于铜官窑动植物元素的陈设陶瓷形态仿生初探[J].家具与室内装饰,2020(3):44-45. 被引量：4

数据分析与知识发现

2020年第1期

浏览历史

内容加载中请稍等...

基于特征融合的术语型引用对象自动识别方法研究被引量：8

参考文献2

二级参考文献54

共引文献95

同被引文献135

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于特征融合的术语型引用对象自动识别方法研究 被引量：8

参考文献2

二级参考文献54

共引文献95

同被引文献135

引证文献8

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于特征融合的术语型引用对象自动识别方法研究被引量：8