用于文献可视化分析的数据清洗方法研究被引量：5

Research of Data Cleaning Method for Visualization

下载PDF

导出

摘要可视化分析是文献计量分析中较为重要的一种。在进行可视化分析时,数据清洗工作至关重要,但目前的可视化分析软件一般不具备数据清洗功能,即使具备,也无法实现批量化的快速清洗。文章以石墨烯领域的WOS文献题录数据可视化分析为对象,探索了利用OpenRefine的聚类功能,对题录中的重要信息进行聚类,形成软件可识别的规范术语文件,进行可视化的方法,验证了该方法用于文献情报挖掘中可视化分析的优越性。研究结果表明,利用OpenRefine聚类功能可以高效地对文献题录重要信息进行处理,机构合作网络中,重复节点减少了9%;关键词共现网络中,词频最大可增加742次,明显减少了重复节点,提高了可视化分析的准确性和情报挖掘的效率。 Visualization analysis is an important method among the bibliometric analysis.During the process of visualization analysis,data cleaning is very important,but the current visualization software generally can􀆳t be used to do this work,and even if some software can,it is relatively simple,needing to repeat one by one.The paper explores a modified strategy of information mining with the improvement of data visualization analysis which playsa significant role in information mining as an breakthrough point.Taking the visualization analysis of bibliography in graphene area from WOS as an example,the paper explores the method of using the clustering function of OpenRefine to deal with the important information of the bibliography,forming a standardized glossary to meet the needs of visualizing software,and then carrying out the visualization.The superiority of this method in the visualization analysis is verified.The results show that with the help of the clustering function of OpenRefine,people can quickly process the important information of literature in bulk,the number of duplicate nodes is reduced by 9%in the organization cooperation network,and the keywords frequency can be increased by 742 times in max,which significantly reduces the number of duplicate nodes in the keyword co-occurrence network.This method can improve the accuracy of visualization analysis and the efficiency of information mining.

作者方小利刘霞 FANG Xiao-li;LIU Xia(Wuhan University Library,Wuhan430072,China)

机构地区武汉大学图书馆

出处《大学图书情报学刊》 2021年第6期56-60,共5页 Journal of Academic Library and Information Science

基金 “武大通识3.0”项目(数据素养与数据利用)(2019年9月-2022年6月)(武大本函[2018]158号)。

关键词大数据 CITESPACE VOSviewer OpenRefine 可视化情报挖掘数据清洗 big data CiteSpace VOSviewer OpenRefine visualization information mining data cleaning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] G353.1 [文化科学—情报学]

引文网络
相关文献

参考文献5

1王崇德,庞学金.文献计量学术语(一)[J].情报理论与实践,1998,21(1):61-61. 被引量：3
2王璇.基于文献计量工具分析学科发展状况[J].民营科技,2015(9):251-251. 被引量：1
3刘雪立.一个新的引文分析工具——InCites数据库及其文献计量学指标的应用[J].中国科技期刊研究,2013,24(2):277-281. 被引量：41
4赵婷婷.科学研究成果评价与文献计量工具研究[J].科技创新导报,2008,5(5):175-175. 被引量：8
5杨静,李玉斌.我国社会互动的研究热点与演进趋势——基于CNKI和CiteSpace的文献计量与知识图谱分析[J].软件,2020,41(2):267-272. 被引量：4

二级参考文献20

1邱均平.我国文献计量学的进展与发展方向[J].情报学报,1994,13(6):454-463. 被引量：40
2王知津,姚广宽.三大中文数据库引文功能比较——CNKI、Vip和CSSCI实证研究[J].图书情报知识,2005,22(3):61-65. 被引量：36
3康延兴.引文检索策略的探讨[J].情报科学,2005,23(8):1233-1236. 被引量：4
4南京医科大学图书馆.汤森路透在线培训:InCites讲座与在线演示.[2012-07-15].http://lib.11jmu.edu.en/news/show.asp?id=605.
5Thomson Reuters. InCites. [ 2012-04-20 ]. http://incites, isikno wledge, com.
6中国科学技术大学图书馆.InCites.[2012-04-20].http://lib.ustc.edu.cn/lib/dbmap/anewpage.php?id=299.
7汤森路透.InCites.[2012-04-20].http://www.thomsonscientific.tom.cn/productsservices/InCites.
8Thomson Reuters. InCites Help: Glossary A to Z. [ 2012-04-23 ]. http ://incites-help. isiknowledge, corn/incites _ 19 _ live/ glossaryGroup/glossaryOnePageFull, html.
9教育部发展规划司.中国教育统计年鉴(2010).北京:人民教育出版社,2010.
10中国台湾省大学排行榜.[2012-07-15].http://wenku.baidu.corn/view/4704c80cdl84254b353511.html.

共引文献52

1张乔,梁倩,梁婷婵,齐园,雷燕,潘茵.InCites中Citation Topics功能应用于科技期刊选题策划的实证研究——以热带医学研究领域为例[J].学报编辑论丛,2023(1):40-50.
2汪钊,董子靖,蒲永平.基于Incites数据库的纺织科学与工程学科学术论文计量分析[J].创新创业理论研究与实践,2021(6):12-15.
3汪静媛.基于文献计量方法的社科人才评价体系评析[J].图书馆工作与研究,2008(3):67-69. 被引量：7
4马韬靖,陈晓勇.基于文献计量法分析我国奶牛乳房炎研究现状[J].安徽农业科学,2011,39(21):13110-13113. 被引量：2
5马韬靖,陈晓勇,敦伟涛.基于文献计量学的我国肉羊研究[J].安徽农业科学,2012,40(8):5037-5039.
6董乃全,李志涛,裘孝芬.合作、开放、创新：高等职业院校科研涅磐之滥觞路--基于CNKI系统被SCI和EI收录科技论文的计量分析[J].科技管理研究,2013,33(15):46-51. 被引量：1
7丁佐奇.提高我国药学学科的国际竞争力——利用ESI和InCites数据库分析我国药学学科发展态势及启示[J].科技与出版,2013(12):21-24. 被引量：20
8刘雪立.中文核心期刊评价指标体系:演进·问题·建议[J].编辑学报,2014,26(1):92-95. 被引量：40
9盖双双,张诗乐,刘雪立,刘睿远.论文被引率在科技期刊评价中的地位和作用--基于36种SCI眼科学期刊问卷调查的实证研究[J].中国科技期刊研究,2014,25(1):39-43. 被引量：8
10刘雪立,张诗乐,盖双双.BKCI数据库辅助图书选题策划——以高被引社会科学图书引证分析为例[J].科技与出版,2014(6):164-168. 被引量：2

同被引文献93

1季业,崔振,徐菁宇,陈斌,徐英学.一种在轨卫星控制分系统风险等级预测方法[J].南京航空航天大学学报,2021,53(S01):130-134. 被引量：1
2李姗泽,邓玥,施凤宁,胡明明,庞博慧,王雨春,李坤,陈铭,彭文启,渠晓东,包宇飞,孟晶晶.水库消落带研究进展[J].湿地科学,2019,17(6):689-696. 被引量：37
3陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7180
4朱教君,康宏樟,李智辉,王国臣,张日升.水分胁迫对不同年龄沙地樟子松幼苗存活与光合特性影响[J].生态学报,2005,25(10):2527-2533. 被引量：108
5李昌晓,钟章成.三峡库区消落带土壤水分变化条件下池杉幼苗光合生理响应的模拟研究[J].水生生物学报,2005,29(6):712-716. 被引量：33
6李昌晓,钟章成.模拟三峡库区消落带土壤水分变化条件下落羽杉与池杉幼苗的光合特性比较[J].林业科学,2005,41(6):28-34. 被引量：32
7任雪梅,杨达源,徐永辉,周彬.三峡库区消落带的植被生态工程[J].水土保持通报,2006,26(1):42-43. 被引量：34
8衣英华,樊大勇,谢宗强,陈芳清.模拟淹水对枫杨和栓皮栎气体交换、叶绿素荧光和水势的影响[J].植物生态学报,2006,30(6):960-968. 被引量：89
9乔普,曾波,王海锋,李娅.低温环境下光照强度对野古草种子萌发的影响[J].西南师范大学学报（自然科学版）,2007,32(6):56-59. 被引量：12
10陈芳清,郭成圆,王传华,许文年,樊大勇,谢宗强.水淹对秋华柳幼苗生理生态特征的影响[J].应用生态学报,2008,19(6):1229-1233. 被引量：67

引证文献5

1潘海霞,曹宁.基于动态可重用性结构化分区融合的大数据清洗规则链自动生成方法[J].自动化与仪器仪表,2022(9):58-61. 被引量：1
2王悦,杨媛媛,李少闻,雷晓梅.基于CiteSpace对《中国儿童保健杂志》1993-2021年刊文的可视化分析[J].预防医学情报杂志,2022,38(11):1507-1515. 被引量：1
3宋开超,张明,祁欣,张秀立,张宇佳,郝秋实,郑稳生.基于CiteSpace的无针注射给药系统科学研究现状的可视化分析[J].中国药学杂志,2023,58(3):277-288. 被引量：1
4李川,刘洲洲.基于决策树算法的IT专业就业模型[J].兵工自动化,2023,42(5):50-53.
5陈忠礼,冯源,朱姿涵,赵青,邵迎.水库消落带植物生态学研究热点——以三峡水库为例[J].草业科学,2024,41(8):1909-1923. 被引量：1

二级引证文献4

1贾俊英.心理健康教育在儿童保健中的应用效果分析[J].中国社区医师,2024,40(2):106-108.
2符艺超,吴海杰,谢敏.基于改进型SVM的电网计量信息快速清洗研究[J].长江信息通信,2024,37(1):94-96.
3李佳敏,曾栋坪,康勇.医用水射流在不同力学性能皮肤上的注射效果研究[J].振动与冲击,2024,43(13):153-161.
4王金牛,魏彦强,张林,罗栋梁,王忠,孙建.“以山为名”的高寒生态研究[J].草业科学,2024,41(8):1781-1787.

1钱亚伟.基于道路照明灯罩机械臂式末端清洗系统研究[J].现代机械,2021(3):57-61.
2宋君,徐奎峰.《眼科手术器械清洗消毒及灭菌技术操作指南》出版:浅析眼科手术医疗器械表面抗原的去除与消毒清洗[J].介入放射学杂志,2021,30(10). 被引量：5
3王晓,王艳.全自动水质分析仪在环境水质监测中的应用[J].黑龙江环境通报,2020,33(3):20-21. 被引量：3
4郑苏伟玉.城市文脉在地铁空间设计中的应用[J].建筑与装饰,2021(28):17-20.
5庄锦源,张琴,肖聪慧,黎俊晖,庄礼兴.基于数据可视化的新型冠状病毒肺炎中医诊疗思路探析[J].亚太传统医药,2021,17(5):124-130.
6陈斌.翅片式冷却器内部在线清洗装置[J].设备管理与维修,2021(21):150-151.
7孙萌,李荣田.水稻蛋白质的研究热点可视化分析[J].中国农学通报,2021,37(28):136-141.
8刘杰强,易韦韦,申蔚,张永杰,严明,武子科.基于PXIe总线的仪器仪表自动检定系统设计与应用[J].国外电子测量技术,2021,40(9):131-136. 被引量：6

大学图书情报学刊

2021年第6期

浏览历史

内容加载中请稍等...

用于文献可视化分析的数据清洗方法研究被引量：5

参考文献5

二级参考文献20

共引文献52

同被引文献93

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

用于文献可视化分析的数据清洗方法研究 被引量：5

参考文献5

二级参考文献20

共引文献52

同被引文献93

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

用于文献可视化分析的数据清洗方法研究被引量：5