新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法被引量：9

Imbalanced Classification of Emerging Technologies Identification:Based on Cost-sensitive Random Forest

下载PDF

导出

摘要基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注。本研究目标在于通过优化分类策略改善新兴技术识别中不均衡数据集造成的分类偏向多数类别的识别效果,提出了综合数据、算法和评估三个层面的新兴技术识别不均衡分类优化框架,并以预测癌症药物领域专利是否有成为新兴技术潜质的二分类场景为例开展实证分析。具体改进之处在于:数据层面采纳渐进式重采样思路;算法层面构建代价敏感的随机森林;评估层面引入代价敏感思想,探究在缺乏专家经验时的代价矩阵验证方式。研究结果表明,基于1∶2均衡比例随机欠采样、以ROC-Youden指数阈值代价矩阵构建的代价敏感随机森林在对应的新兴技术识别目标中能正确预测出82.8%的新兴技术和81.6%的普通技术,显著优于本文对照组及现有相关成果,对未来深入挖掘新兴技术识别中不均衡分类问题的本质具有参考价值。 Automated forward-looking forecasting based on large patent data and patent characteristics has gradually become the research focus of emerging technologies identification.In addition,the introduction of machine learning technology has attracted the attention of the small probability of discovering emerging technologies from massive technological inventions represented by patents,which comprises a typical imbalanced classification problem.This study aims to improve the identification performance of the classification bias to the majority caused by imbalanced datasets in emerging technologies identification and to propose a comprehensive imbalanced classification optimization framework that integrates three levels of data,algorithm,and evaluation verified by the binary classification of whether the patents in cancer drugs field can be authorized by the Food and Drug Administration to become new drugs as emerging technologies as an example.The specific improvements are as follows:progressive resampling is verified at the data level,cost-sensitive learning is introduced with three cost matrix setting methods under the background of a lack of expert experience are studied at the evaluation level,and the cost-sensitive random forest is constructed at the algorithm level.The results show that cost-sensitive random forest based on 1∶2 undersampling and ROC(receiver operating characteristic)-Youden index threshold cost matrix can predict 82.8%of the emerging technologies and 81.6%of the common technologies,which is significantly better than the control group and the existing related results.It has a certain reference value for further mining the essence of the imbalanced classification in emerging technologies identification in the future,and has certain reference value for the future exploration of the nature of the imbalanced classification problems in emerging technologies identification.

作者卢小宾张杨燚杨冠灿行佳鑫 Lu Xiaobin;Zhang Yangyi;Yang Guancan;Xing Jiaxin(School of Information Resource Management,Renmin University of China,Beijing 100872)

机构地区中国人民大学信息资源管理学院

出处《情报学报》 CSSCI CSCD 北大核心 2022年第10期1059-1070,共12页 Journal of the China Society for Scientific and Technical Information

基金国家社会科学基金重点项目“新时期产业技术情报分析方法体系研究”(21ATQ008)。

关键词新兴技术识别不均衡分类代价敏感随机森林渐进式重采样 emerging technologies identification imbalanced classification cost-sensitive random forest progressive resampling

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] G255.53 [文化科学—图书馆学]

引文网络
相关文献

参考文献11

1周源,刘宇飞,薛澜.一种基于机器学习的新兴技术识别方法:以机器人技术为例[J].情报学报,2018,37(9):939-955. 被引量：34
2卢小宾,杨冠灿,徐硕,张杨燚.计量与演化视角下的新兴技术识别研究进展评述[J].情报学报,2020,39(6):651-661. 被引量：18
3叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72
4向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(4):1-16. 被引量：54
5李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：74
6刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍.不平衡分类的数据采样方法综述[J].重庆理工大学学报（自然科学）,2019,33(7):102-112. 被引量：28
7翟夕阳,王晓丹,李睿,贾琪.采用多类代价指数损失函数的代价敏感AdaBoost算法[J].西安交通大学学报,2017,51(8):33-39. 被引量：2
8王学玲,王建林.基于代价敏感的AdaBoost算法改进[J].计算机应用与软件,2013,30(10):123-125. 被引量：4
9平瑞,周水生,李冬.高度不平衡数据的代价敏感随机森林分类算法[J].模式识别与人工智能,2020,33(3):249-257. 被引量：24
10尹华,胡玉平.一种代价敏感随机森林算法[J].武汉大学学报（工学版）,2014,47(5):707-711. 被引量：10

二级参考文献110

1武勃,黄畅,艾海舟,劳世竑.基于连续Adaboost算法的多视角人脸检测[J].计算机研究与发展,2005,42(9):1612-1621. 被引量：66
2穆荣平,任中保,袁思达,乔岩.中国未来20年技术预见德尔菲调查方法研究[J].科研管理,2006,27(1):1-7. 被引量：54
3刘三阳,杜喆.一种改进的模糊支持向量机算法[J].智能系统学报,2007,2(3):30-33. 被引量：10
4陈峰.日本第八次技术预见方法的创新[J].中国科技论坛,2007(8):132-135. 被引量：24
5Schapire R E. The strength of weak leam ability [ J ]. Machine Learning, 1990,5 (2) : 197 - 227.
6Schapire R E, Singer Y. Improved boosting algorithms using confidence- rated predictions[ J]. Machine Learning, 1999,37 ( 3 ) :297 - 336.
7Viola P,Jones M J. Robust Real-Time Face Detection [ J]. Internation- al Journal of Computer Vision,2004,57(2) :137 - 154..
8Zadrozny B, Langford J, Abe N. Cost-sensitive learning by cost-propor- tionate example weighting[ C ]//Proceedings of the 3th IEEE Interna- tional Conference on Data Mining. Washington D. C. , USA: IEEE, 2003:435 - 442.
9Ling C X, Sheng V S, Yang Q. Test strategies for cost-sensitive decision trees[ C ]. IEEE Transactions on Knowledge and Data Engineering, 2006,18 (8) : 1055 - 1067.
10Chai X, Deng L, Yang Q, et al. Test-cost sensitive Naive Bayes classification[ C]//Proceedings of the 4th IEEE International Conference on Data Mining. Washington D. C. , USA : IEEE ,2004 : 1 - 58.

共引文献297

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
3周波,冷伏海.技术识别研究进展[J].情报学进展,2022(1):315-348. 被引量：5
4高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
5陈文强,毛孝南,林飞腾.高管薪酬复杂度:研究进展与未来方向[J].当代会计评论,2023(4):19-44.
6崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
7文益民,李健,杜飞明,陈方.集成学习算法在不平衡分类中的应用研究[J].计算技术与自动化,2009,28(2):103-106.
8王成,刘亚峰,王新成,闫桂荣.分类器的分类性能评价指标[J].电子设计工程,2011,19(8):13-15. 被引量：29
9王瑞伟,李志华.离群数据规则挖掘的决策树构造方法[J].计算机工程与设计,2011,32(5):1781-1784.
10方磊,马溪骏.基于信息熵的改进型支持向量机客户流失预测模型应用研究[J].情报学报,2011,30(6):643-648. 被引量：5

同被引文献138

1倪翠,王朋,孙浩,李倩.一种基于四叉树划分的改进ORB算法[J].应用科学学报,2022,40(2):266-278. 被引量：8
2谭荧,张进,夏立新.社交媒体情境下的情感分析研究综述[J].数据分析与知识发现,2020,4(1):1-11. 被引量：21
3郭颖,王明星,段炜钰.专利的技术新兴度与其技术影响力间关系研究[J].科学学研究,2022,40(6):1034-1043. 被引量：10
4周钊,赵学亮,韩天然,陶津.盾构隧道监测数据三维可视化研究[J].地下空间与工程学报,2021,17(S02):892-901. 被引量：4
5郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28
6辛竹,周亚建.文本分类中互信息特征选择方法的研究与算法改进[J].计算机应用,2013,33(A02):116-118. 被引量：15
7杨冠灿,陈亮,张静,李纲.专利引用关系形成的解释框架:一个指数随机图模型视角[J].图书情报工作,2019,63(5):100-109. 被引量：8
8刘彤,郭鲁钢,杨冠灿.基于动态网络分析的专利合作网络演化分析——以纳米技术为例[J].情报杂志,2014,33(11):88-93. 被引量：24
9李蓓,陈向东.基于专利引用耦合聚类的纳米领域新兴技术识别[J].情报杂志,2015,34(5):35-40. 被引量：30
10白彦壮,郭蕾,殷红春.企业家精神驱动下自主知识产权品牌成长机制研究——以小米科技为例[J].科技进步与对策,2015,32(12):79-85. 被引量：24

引证文献9

1刘烨,牛赫然,李兵兵,马欣华,崔树旺.机器学习在宇宙线粒子鉴别中的应用[J].物理学报,2023,72(14):17-25.
2刘敏,曹卓洋.生态环境空间管控中自动研判算法研究[J].科技与创新,2023(21):158-161. 被引量：1
3姚汝婧,王芳.基于多粒度标签扰动的文本分类研究[J].现代情报,2024,44(1):25-36. 被引量：1
4刘嘉宇,李贺,沈旺,祝琳琳,李世钰.融合多源异构在线评论的开放式创新社区创意采纳预测研究[J].情报学报,2024,43(1):48-60.
5裴庆庆,刘慧慧.基于高斯函数拟合的多维数据三维可视化仿真[J].计算机仿真,2024,41(1):206-210.
6郭剑明,王婧怡,袁润.基于网络快照的核心专利预测方法研究[J].情报理论与实践,2024,47(6):166-174. 被引量：2
7陈稳,马亚雪,巴志超,李纲.基于动态知识流动特征的有向技术融合预测方法[J].情报杂志,2024,43(8):152-159.
8杨秋勇,王建欣,符飞虎,罗政.基于随机森林的电网GIS数据分布式存储方法[J].电子设计工程,2024,32(17):27-30.
9奉国和,陈丽霞,邓伟伟,刘任铧.基于重叠社区的新兴技术识别[J].图书馆论坛,2024,44(9):48-59.

二级引证文献4

1项芮,孙巍.基于PhraseLDA-SNA和机器学习的技术主题影响力测度方法研究[J].农业图书情报学报,2024,36(4):45-62.
2邱嘉萱,刘佳静,郑建明.2023年中国图书情报领域研究概览[J].图书馆论坛,2024,44(9):16-27.
3左勇刚,李媛.高价值专利量化特征及培育对策研究——以中国专利奖为例[J].江苏科技信息,2024,41(16):35-39.
4李亚婷,陈果,韩瑞轩,王佳瑞.快递需求问题的数学建模分析[J].计算机应用文摘,2024,40(17):154-156.

1林泳昌,朱晓姝.一种基于SMOTE的不均衡样本KNN分类方法[J].广西科学,2020,27(3):276-283. 被引量：4
2刘金平,周嘉铭,刘先锋,唐朝晖,马天雨.基于聚类簇结构特性的自适应综合采样法在入侵检测中的应用[J].控制与决策,2021,36(8):1920-1928. 被引量：7
3陈振寰,张天宇,杨春祥,吴锋,韩杰,陈潇婷.基于改进二次规划算法的新能源同质报价现货市场出清模型[J].电力系统自动化,2021,45(13):117-124. 被引量：7
4肖思哲,刘振国,闫志鸿,李敏,黄及远.基于生成对抗网络的小样本激光焊接缺陷数据集生成[J].焊接学报,2022,43(10):43-48. 被引量：3
5郑涛.杂交技术在油菜籽ω-3和ω-6均衡性方面的可行性探讨[J].中国种业,2021(7):17-20. 被引量：1
6李钢,李杨洋.建筑学何以“自由艺术”?--维特鲁威的理想建筑论[J].云南艺术学院学报,2021(2):117-120.
7王仁波.辐射监测:看不见变成“看得见”[J].中国核工业,2022(9):26-26.
8王爽,杨可明,丁鑫铭,侯志贤,李艳茹,李亚星.PS-InSAR监测矿区建筑物及道路动态沉降安全分析[J].中国安全生产科学技术,2022,18(9):111-117. 被引量：6
9陈清源,金帆,冯德华,王云龙,梁毅军.基于双模型集成的太阳黑子磁类型分类[J].天文研究与技术,2022,19(6):636-644.
10庞洋,张华,郝亚炬,彭清,梁爽,韩紫璇.基于加速Bregman方法和阈值迭代法的联合地震数据重建[J].石油地球物理勘探,2022,57(5):1035-1045. 被引量：3

情报学报

2022年第10期

浏览历史

内容加载中请稍等...

新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法被引量：9

参考文献11

二级参考文献110

共引文献297

同被引文献138

引证文献9

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法 被引量：9

参考文献11

二级参考文献110

共引文献297

同被引文献138

引证文献9

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法被引量：9