巧用Clementine简化数据处理

Simplifying data processing by making use of Clementine in a clever way

下载PDF

导出

摘要用著名的数据挖掘工具Clementine处理数据有些大材小用,但它的确比Excel更易用、更高效,处理数据时不需要翻看复杂的编程手册、在Excel表中拉滚动条、选择各种函数等。以国家科技文献中心(NSTL)签到数据上传处理为研究实例,涉及数据查重、规范、筛选、映射、比对、频次统计等各种常见任务,介绍了如何根据不同处理需求定制相应Clementine数据流和Clementine工具在海量数据处理中的优势。 It is to put a large material to a small use when Clementine, a well-known data mining tool is used to process da. However, it is easier to use with a higher efficacy in processing data than Excel because it does not need to read the complex programming manual, to pull the scroll bar in Excel, and to select the different functions. How to build the corresponding data flow according to the requirements of different data processing and bring Clementine into full play was described by taking the uploading of registered attendance data in National Science and Technology Literature Center as an example, including duplicate data check, data standardization, data screening, data mapping, comparison and frequency.

作者郑慧霞

机构地区中国协和医科大学图书馆网络技术服务部

出处《中华医学图书情报杂志》 CAS 2011年第4期59-62,共4页 Chinese Journal of Medical Library and Information Science

基金中国医学科学院医学信息研究所基本科研业务费支持项目:基于Web挖掘的读者行为分析(编号R0830)

关键词 CLEMENTINE 数据处理映射比对 Clementine data processing mapping comparison

分类号 G254.362 [文化科学—图书馆学]

引文网络
相关文献

参考文献2

1郑慧霞,徐硕,王丽娜.Clementine在用户频繁访问路径挖掘中的应用[J].中华医学图书情报杂志,2010,19(7):73-76. 被引量：1
2郑慧霞,徐硕.Web日志预处理的Clementine方案[J].医学信息学杂志,2009,30(12):33-36. 被引量：5

二级参考文献14

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2孔昊,周长胜.Web日志挖掘预处理研究[J].北京机械工业学院学报,2005,20(4):28-31. 被引量：8
3互联网数据挖掘综述-web使用记录的挖掘[EB/OL].http://www.dwway.com/html/80/n-2180-3.html.
4AWStats简介[EB/OL].http://www.chedong.com/tech/awstats.html.
5Maristella Agosti and Giorgio Maria Di NunZio. Web Log Mining: a study of user sessions [ EB/OL ]. http : //www. dblab, ntua. gr/persd12007/papers/72, pdf,.
6互联网数据挖掘综述:Web使用记录的挖掘[EB/OL].[2009-11-25].http://www.dwway.com/html/80/n-2180-3.html.
7Chen MS, Park JS, Yu PS. Data mining for path traversal patterns in a web environment [ C ]. International Conference on Distributed Computing Systems, Hongkong. 1996:385-392. http://citeseerx. ist. psu. edu/viewdoc/download? doi = 10.1.1.43. 9534&rep = repl &type = pdf.
8Clementine的数据挖掘中文教程[EB/OL].[2009-11-25].http://www.quanwen.com.cn/doc/1544013/.
9Chen MS, Park JS, Yu PS. Yu,Efficient Data Mining for Path Traversal Patterns [ J ]. IEEE Trans Knowl Data Eng (S1041 - 4347), 1998,10(2) :209-221.
10网站流量统计指标及其网络营销含义:独立访问者数量分析[EB/OL].(2007-04-16)[2009-1l一25].http://hi.baidu.com/jaso/blog/itera/af50220868c95fd062d9860e.html.

共引文献4

1郑慧霞,王丽娜,钱庆.读者访问序列模式的探索[J].图书情报工作,2010,54(S1):271-274.
2郑慧霞,徐硕,王丽娜.Clementine在用户频繁访问路径挖掘中的应用[J].中华医学图书情报杂志,2010,19(7):73-76. 被引量：1
3王玲,陈中,陈安.Modeler软件及其在药品不良反应监测中的应用[J].计算机系统应用,2011,20(2):104-108.
4李阳,许培扬.如何使用数据挖掘工具Clementine——以我国图书情报类期刊学术影响力评价为例[J].现代情报,2012,32(1):146-149. 被引量：2

1李阳,许培扬.如何使用数据挖掘工具Clementine——以我国图书情报类期刊学术影响力评价为例[J].现代情报,2012,32(1):146-149. 被引量：2
2辜晓进,朱韶青.“两会”报道与地方特色──五家地方党报比较研究[J].当代传播,2000(2):52-54. 被引量：1
3靳会新.从对同一消息的不同处理看媒体的兴趣[J].新闻传播,2002(4):32-33.
4高洁.我国高校图书馆网上咨询服务现状与分析[J].巢湖学院学报,2004,6(5):116-118. 被引量：1
5李家晔：名家、特色作者是畅销书的硬道理[J].出版参考,2012(17):6-6.
6廖宇峰.数据挖掘技术在图书馆的应用研究[J].四川图书馆学报,2017(2):33-36. 被引量：1
7张静端.基于Clementine的数据挖掘技术对学科隐形关联的研究——以东华大学纺织学科为例[J].现代情报,2013,33(9):145-149. 被引量：2
8陪伴才是最真的孝[J].语文教学与研究（教研天地）,2015,0(12):50-50.
9胡华南.信息化时代下的图书馆期刊订购和管理[J].湖州师范学院学报,2007,29(4):134-136.
10李远明,胡魁菊,祝方林,周劲.基于文献聚类的高校科研成果量化分析[J].现代情报,2011,31(6):113-117. 被引量：2

中华医学图书情报杂志

2011年第4期

浏览历史

内容加载中请稍等...

巧用Clementine简化数据处理

参考文献2

二级参考文献14

共引文献4

相关作者

相关机构

相关主题

浏览历史