多源数据驱动的API调用模式挖掘方法研究被引量：2

Research on API call pattern mining method driven by multisource data

下载PDF

导出

摘要软件开发人员在编程过程中需要使用大量的应用程序接口(API),但是API文档自身可能存在不完整、过时等情况,导致对其理解和使用出现困难。通常基于序列模式挖掘API调用模式的方法(例如UP-Miner等)针对的是单一的数据来源(即用户源程序),在使用过程中若阈值设置较高,则挖掘出的API调用模式完整性会降低,甚至会丢失一些重要的API调用模式。为此,文中提出一种多源驱动的API调用模式挖掘方法,将用户代码和问答网站(如Stack Overflow)上的专家示例代码相结合,采用分类和聚类的方法挖掘出较少的API调用模式。与UP-Miner等其他工具的对比实验结果表明,所提方法在召回率以及准确率上有较大的提升。 Software developers usually need to use a large number of APIs(application program interface)in the programming process,but the API document itself may be incomplete and outdated,which makes it difficult to understand and use the API.The method of mining API call patterns based on sequential patterns(such as UP-Miner)is aimed at using the single data source(i.e.user source program).If the threshold value is set higher in the use process,the integrity of the discovered API call patterns will be reduced,or even some important API call patterns will be lost.A multisource driven API call pattern mining method is proposed,which combines user code with expert example code on Q&A websites(such as Stack Overflow),and can mine fewer API call patterns by means of classification and clustering methods.In comparison with other tools such as UP-Miner,the experimental results show that the proposed method has a greater improvement in recall and precision than other methods.

作者杨超逸钟林辉莫俊杰卢腾骏高荣锦阮书鹤祝艳霞 YANG Chaoyi;ZHONG Linhui;MO Junjie;LU Tengjun;GAO Rongjin;RUAN Shuhe;ZHU Yanxia(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang 330022,China;School of VR Modern Industry,Jiangxi University of Finance and Economics,Nanchang 330032,China)

机构地区江西师范大学计算机信息工程学院江西财经大学VR现代产业学院

出处《现代电子技术》 2023年第16期75-80,共6页 Modern Electronics Technique

基金国家自然科学基金项目(62062039) 国家自然科学基金项目(61966017) 江西省自然科学基金项目(20212BAB202017) 江西省自然科学基金项目(20224BAB202013) 江西省自然科学基金项目(20212BAB202018) 校教改课题(JXSDJG2044)

关键词 API调用模式序列模式挖掘多源数据驱动 BE-Miner挖掘系统分类聚类问答网站 API call pattern sequential pattern mining multisource data driven BE-Miner mining system classification clustering Q&A website

分类号 TN919-34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1钟林辉,齐杰,叶海涛,莫俊杰.基于多维属性演化树的软件演化风格匹配方法研究[J].江西师范大学学报（自然科学版）,2021,45(1):55-59. 被引量：1
2钟林辉,夏鲸,彭云,谢冰.一种图编辑距离的软件体系结构变化性度量方法及应用研究[J].小型微型计算机系统,2018,39(3):425-432. 被引量：4
3郁抒思,周水庚,关佶红.软件工程数据挖掘研究进展[J].计算机科学与探索,2012,6(1):1-31. 被引量：24
4李正,吴敬征,李明树.API使用的关键问题研究[J].软件学报,2018,29(6):1716-1738. 被引量：13

二级参考文献138

1韩恺,岳丽华,龚育昌.基于上下文的异构文档类型定义匹配[J].小型微型计算机系统,2005,26(2):256-260. 被引量：8
2赵俊峰,谢冰,张路,杨芙清.一种支持领域特性的Web服务组装方法[J].计算机学报,2005,28(4):731-738. 被引量：52
3徐如志,都艺兵,于华,陆晶,钱乐秋.基于复用的软件过程改进方法[J].计算机科学,2006,33(6):251-254. 被引量：3
4李广强,吴伟民,赖天武,王静,孙乙乃.基于控件和XML的可定制软件开发方案[J].计算机工程,2007,33(2):267-269. 被引量：9
5Tan Pangning. Introduction to data mining[M]. Upper Saddle River, NJ, USA: Pearson Education, 2006.
6Xie Tao, Thummalapenta S, Lo D, et al. Data mining for software engineering[J]. Computer, 2009, 42: 55-62.
7Wheeler D. Linux kernel 2.6: It's worth more! 2004.
8Royce W W. Managing the development of large software systems: concepts and techniques[C]//Proceedings of the 9th International Conference on Software Engineering (ICSE '87), Monterey, CA, USA, 1987. Los Alamitos, CA,USA: IEEE Computer Society, 1987: 328-338.
9Ko A J, DeLine R, Venolia G. Information needs in collocated software development teams[C]//Proceedings of the 29th International Conference on Software Engineering (ICSE '07), Minneapolis, MN, USA, 2007. Washington, DC, USA: IEEE Computer Society, 2007: 344-353.
10Han Jiawei, Kamber M, Pei Jian. Data mining: concepts and techniques[M]. [S.l.]: Morgan Kaufmann, 2005.

共引文献38

1王刚,赵玥.软件工程数据挖掘研究进展[J].计算机光盘软件与应用,2014,17(7):78-78. 被引量：5
2贺玮.软件工程数据挖掘技术的研究进展[J].科技风,2014(17):141-141. 被引量：10
3兰璇.关于计算机软件工程管理与应用探讨[J].电子技术与软件工程,2015(6):89-89. 被引量：11
4米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
5吴琼.试析软件工程的数据挖掘技术[J].中国科技博览,2015,0(44):246-246.
6张巍巍.基于SOA的高可消费性商业分析平台研究[J].电子世界,2015(20):101-102.
7陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：123
8张惟慎.面向软件开发信息库的数据挖掘综述[J].科技创新与应用,2016,6(7):91-92. 被引量：1
9陈翔,贺成,王宇,管怀文.HFS:一种面向软件缺陷预测的混合特征选择方法[J].计算机应用研究,2016,33(6):1758-1761. 被引量：9
10周丽英.面向软件开发信息库的数据挖掘综述[J].中国管理信息化,2016,19(12):184-184. 被引量：2

同被引文献21

1胡志强,潘鑫瑜,文思捷,李心雨,鲍劲松.结合多模态知识图谱与大语言模型的风机装配工艺问答系统[J].机械设计,2023,40(S02):20-26. 被引量：6
2韩忠愿,陈棣沭.汽车新产品预研的策略[J].重型汽车,1999(1):26-28. 被引量：1
3肖家明.控制与告知:社交媒体环境下用户个人信息资料权的保护——基于Facebook用户信息泄露事件的思考[J].新媒体研究,2018,4(9):70-71. 被引量：3
4汤晓燕,刘文军,朱东,浦信,吴新兵.基于ECharts的电动汽车监控可视化研究[J].现代信息科技,2018,2(12):46-48. 被引量：6
5刘志豪,马金刚,李逢天,生慧.基于区块链的医疗数据安全存储研究[J].医疗卫生装备,2019,40(3):31-33. 被引量：17
6吕群巍,康艺.基于SQL的汽车销售系统搭建与分析[J].信息通信,2020,0(2):193-194. 被引量：1
7胡晓兰,贾丹,吴玮,周鹏.医院自助医疗系统在提高门诊服务质量与就诊体验中的效果评价[J].中国医学装备,2020,17(10):139-142. 被引量：15
8张龙军,王天军,沈佳,王涛,王层层.基于大数据的API接口运维自感知监控方法研究[J].电子技术与软件工程,2020(23):147-148. 被引量：4
9刘利,倪丽,王霞,卜甜甜.移动医疗设备信息隐私保护的雾计算解决方案研究[J].中国医学装备,2022,19(1):138-142. 被引量：4
10万小博.信息系统常见数据泄露原因及应对策略分析[J].电子技术与软件工程,2022(9):13-16. 被引量：4

引证文献2

1雷天凤,张永,龚春忠,周伟明.基于大语言模型的竞品车型配置问答系统设计与应用研究[J].汽车科技,2024(3):73-80. 被引量：1
2孙保峰,葛晓伟,杨扬,李郁鸿.某三级甲等公立医院API接口安全监测实践与思考[J].中国数字医学,2024,19(7):115-120.

二级引证文献1

1宋雷雷,李兴斐,丁洁琼,祁赟.大语言模型在精益化工艺管理中的智能应用[J].信息系统工程,2024(10):32-35.

1彭沛,赵永平,王雨玮.一种快速自动挖掘航空发动机工作模式的新方法[J].航空学报,2023,44(11):207-221.
2詹威霖,周宇.基于序列挖掘的Dockerfile规则自动提取工具[J].计算机系统应用,2023,32(7):293-298.
3郭世凯,王思文,李辉,范玉龙,刘亚清,张斌.Multi-Feature Fusion Based Structural Deep Neural Network for Predicting Answer Time on Stack Overflow[J].Journal of Computer Science & Technology,2023,38(3):582-599.
4尚钊仪,李敏,李博韬,周宏伟.对河湖生态流量保障全过程管理的思考与展望[J].水利发展研究,2023,23(6):11-16. 被引量：5
5李森.核电安全分析软件的监管研究[J].核科学与技术,2023,11(3):284-294.
6余其鹏,董建平.基于Python和天地图的地震应急快速反应系统研究--以江苏地区为例[J].地震科学进展,2023,53(7):296-302.
7赵静,朱龙,吴震宇,董菲.基于自调整测量基准图的直线电机动子位置测量累积误差消减[J].光学学报,2023,43(11):84-95.
8谷相宏,郭子晗,张程,庞福滨,李然,游帅.正弦波调制全光纤电流互感器光回路故障预警方法[J].广东电力,2023,36(7):50-59. 被引量：1

现代电子技术

2023年第16期

浏览历史

内容加载中请稍等...

多源数据驱动的API调用模式挖掘方法研究被引量：2

参考文献4

二级参考文献138

共引文献38

同被引文献21

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

多源数据驱动的API调用模式挖掘方法研究 被引量：2

参考文献4

二级参考文献138

共引文献38

同被引文献21

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

多源数据驱动的API调用模式挖掘方法研究被引量：2