基于高维聚类的探索性文本挖掘算法被引量：4

Exploratory text mining algorithm based on high-dimensional clustering

下载PDF

导出

摘要建立了一种基于高维聚类的探索性文本挖掘算法,利用文本挖掘的引导作用实现数据类文本中的数据挖掘。算法只需要少量迭代,就能够从非常大的文本集中产生良好的集群;映射到其他数据与将文本记录到用户组,能进一步提高算法的结果。通过对相关数据的测试以及实验结果的分析,证实了该方法的可行性与有效性。 Because of the unstructured characteristics of free text,text mining becomes an important branch of data mining.In recent years,types of text mining algorithms emerged in large numbers.In this paper,an exploratory text mining algorithm was proposed based on high-dimensional clustering.The algorithm required only a small number of iterations to produce favorable clusters from very large text.Mapping to other recorded data and recording the text to the user group enabled the result of the algorithm be improved further.The feasibility and validity of the proposed method is verified by related data test and the analysis of experimental results.

作者张爱科符保龙

机构地区柳州职业技术学院电子信息工程系

出处《计算机应用》 CSCD 北大核心 2013年第4期988-990,1050,共4页 journal of Computer Applications

基金广西教育厅科研项目基金资助项目(201106LX745 201204LX593)

关键词自由文本高维聚类数据覆盖文本挖掘数据挖掘 free text high-dimensional clustering data coverage text mining data mining

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1马强,陶导,钱卫宁,周傲英.TLGM-QL:基于图模型的Web数据分析性查询语言[J].广西师范大学学报（自然科学版）,2009,27(1):121-124. 被引量：1
2李健,徐超,谭守标.一种Web数据挖掘系统的设计和研究[J].计算机技术与发展,2009,19(2):70-73. 被引量：7
3杨科,赖朝安,赵阳.基于XML数据的FP-growth算法挖掘研究[J].计算机工程与应用,2008,44(19):150-152. 被引量：2
4杨云,罗艳霞.FP-Growth算法的改进[J].计算机工程与设计,2010,31(7):1506-1509. 被引量：25
5WALMSLEYP.XQuery权威指南[M].王银辉,译.北京:电子工业出版社,2009.
6AGRAWAL R , IMIELINSKI T , SWAMI A . Mining association rules between sets of items in large databases[ C]// Proceedings of the ACM SIGMOD Conference on Management of data. New York: ACM Press, 2012:207-216.
7潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
8巩知乐,张德贤,胡明明.一种改进的支持向量机的文本分类算法[J].计算机仿真,2009,26(7):164-167. 被引量：37
9XU B, GUAN Q, CHEN K. Multi-Agent coalition formation based on quantum-behaved particle swarm optimization [ J]. Journal of Information & Computational Science, 2010, 7(5): 1059 -1064.
10周戈.一种基于反向文本频率互信息的文本挖掘算法研究[J].计算机应用研究,2012,29(2):487-489. 被引量：9

二级参考文献146

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：15
3胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
4徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
5周琪锋.基于Web的数据挖掘技术的研究[J].电脑知识与技术,2007(1):97-97. 被引量：4
6徐前方,阚建杰,李永春,李荣盛,郭军.一种具有时序特征的告警关联规则挖掘算法[J].微电子学与计算机,2007,24(3):23-26. 被引量：6
7李志云,周国祥.一种基于MFP树的快速关联规则挖掘算法[J].计算机技术与发展,2007,17(6):94-96. 被引量：6
8刘先锋,曾舸.基于半结构化数据的关联规则挖掘模式[J].计算机工程与应用,2007,43(19):171-173. 被引量：1
9Hart J,Kamber M.Data mining:concepts and techniques[M].[S.l.]: Morgan Kaufmann Publishers,2000.
10Agrawal R,hniclinski T,Swami A.Mining association rules between sets of items in large databases[C]//Proceedings of the ACM-SIGMOD 1993 International Conference on Management of Data, Washington DC, 1993:207-216.

共引文献105

1赵美惠.面向环境监测的无线传感器网络的数据流挖掘研究[J].计算机科学,2012,39(S3):111-113.
2潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
3潘有能.基于XML的Web日志挖掘研究[J].现代图书情报技术,2006(5):62-64. 被引量：2
4梅东霞,张晓明.基于单个XML文档结构的数据挖掘[J].石油化工高等学校学报,2007,20(1):94-98. 被引量：3
5崔琳.Web挖掘在blog空间里的运用[J].电脑知识与技术,2007(9):1245-1246.
6崔琳,汪材印.Blog的核心技术和Web挖掘[J].电脑开发与应用,2008,21(2):44-45. 被引量：4
7张立彬,杨军花,翟春红,王璐.基于RSS的搜索引擎技术及其发展趋向探析[J].情报科学,2009,27(2):183-189. 被引量：14
8秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6
9谢长菊.支持向量机新模型及其参数特性研究[J].计算机仿真,2010,27(4):188-191.
10张敬平,王立新.电路故障个体化诊断仿真研究[J].计算机仿真,2010,27(8):168-170. 被引量：1

同被引文献51

1么枕生.用于数值分类的聚类分析[J].海洋湖沼通报,1994(2):1-12. 被引量：34
2DEAN J, GHEMAWAT S. MapReduce : simplified data processing on large clusters[J]. Communications of the ACM, 2012, 51 (1) : 107-113.
3ELSAYED T, LIN J, OARD D W. Pairwise document similarity in large collections with MapReduce [ C ]//Proc of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies. [ S. 1. ] : Association for Computational Lin- guistics, 2008: 265-268.
4KANG U, TSOURAKAKIS C E, FALOUTSOS C. PEGASUS: a pe- ta-seale graph mining system implementation and observations [ C ]// Proc of the 9th IEEE International Conference on Data Mining. Wash- ington DC : IEEE Computer Society, 2009 : 229-238.
5EKANAYAKE J, PALLICKARA S, FOX G. Mapreduce for data in- tensive scientific analyses[ C]//Proc of the 4th IEEE International Conference on eScience. 2008: 277-284.
6LIN J, BAHETY A, KONDA S, et al. Low-latency, high-throughput access to static global resources within the Hadoop framework, HCIL- 2009-01 [ R ]. Maryland : University of Maryland, 2013 : 1211-1228.
7BRANTS T, POPAT A C, XU Peng, et al. Large language models in machine translation[ C]//Proc of Joint Conference on Empircal Me- thods in Natural Language Processing. 2007.
8SABATTI C, LANGE K. Genomewide motif identification using a die- tionary model[J]. Proceedings of the IEEE, 2002, 90 ( 11 ) : 1803-1810.
9CROFT W B, METZLER D, STROHMAN T. Search engines: infor- mation retrieval in practice [ M]. Boston: Addison-Wesley, 2010.
10DELWICHE F A. Searching MEDLINE via PubMed [ J]. Clinical Laboratory Science: Journal of the American Society for Medi- cal Technology, 2007, 21 ( 1 ) : 35-41.

引证文献4

1于海鹏,翟红生.一种子空间聚类算法在多标签文本分类中应用[J].计算机应用与软件,2014,31(8):288-291. 被引量：4
2武健.时序Web数据挖掘方法[J].计算机应用,2014,34(A02):120-122. 被引量：1
3梁凤兰.文本挖掘中一种基于参数估计的语句分块方案研究[J].计算机应用研究,2015,32(4):986-991. 被引量：1
4杨龙光,吴晶妹.基于统计的聚类模型构建研究[J].统计与决策,2015,31(17):28-31. 被引量：1

二级引证文献7

1毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
2杨龙光,林兆彬.我国地方政府债务风险的量化分析[J].统计与决策,2016,32(8):146-149. 被引量：6
3龚静,黄欣阳.基于改进模糊语法增量式算法的文本分类方法[J].计算机应用研究,2017,34(11):3355-3358. 被引量：3
4叶光辉,胡婧岚,徐健,夏立新.社交博客标签增长态势与连接模式分析[J].数据分析与知识发现,2018,2(6):70-78. 被引量：2
5顾佩月,刘峥,李云,李涛.基于时滞特征的时序依赖情节发现[J].计算机应用,2019,39(2):421-428. 被引量：1
6毕崇武,叶光辉,彭泽,李明倩.基于标签语义关联的城市社群发现研究[J].现代情报,2020,40(3):14-23. 被引量：2
7叶光辉,毕崇武.基于标签语义挖掘的城市画像研究评述[J].现代情报,2021,41(2):162-167. 被引量：2

1淦文燕,李家福,李德毅.高维聚类中的一种特征筛选方法[J].解放军理工大学学报（自然科学版）,2003,4(6):1-5. 被引量：9
2王钊.基于SSH的Web中的文本挖掘算法的研究与应用[J].工业控制计算机,2015,28(9):128-129.
3朱颢东,蔡乐才,刘忠英.一种改进的文本特征选择算法[J].现代电子技术,2008,31(8):97-99. 被引量：7
4郏宣耀.基于相似性二次度量的高维数据聚类算法[J].计算机应用,2005,25(B12):176-177. 被引量：3
5高媛,陈建斌,陈立潮.一种基于多层概图的高维聚类算法研究[J].计算机应用,2004,24(S1):87-88. 被引量：1
6高学东,吴玲玉.基于高维聚类技术的中文关键词提取算法[J].中国管理信息化,2011,14(9):23-27. 被引量：2
7陈建斌,宋翰涛.基于属性分布相似度的超图高维聚类算法研究[J].计算机工程与应用,2004,40(34):195-198. 被引量：7
8许倡森.基于混合网格划分的子空间高维数据聚类算法[J].计算机技术与发展,2010,20(10):150-153. 被引量：4
9庄旭东.DB块数据储存和曲线显示[J].酒．饮料技术装备,2015,0(3):70-71.
10刘志勇,耿新青.基于模糊聚类的文本挖掘算法[J].计算机工程,2009,35(5):44-45. 被引量：19

计算机应用

2013年第4期

浏览历史

内容加载中请稍等...

基于高维聚类的探索性文本挖掘算法被引量：4

参考文献14

二级参考文献146

共引文献105

同被引文献51

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于高维聚类的探索性文本挖掘算法 被引量：4

参考文献14

二级参考文献146

共引文献105

同被引文献51

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于高维聚类的探索性文本挖掘算法被引量：4