改进的基于FIHC的科学数据聚类算法被引量：1

Improved Scientific Data Clustering Algorithm Based on FIHC

下载PDF

导出

摘要针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。 Because FIHC is a clustering algorithm which is based on frequent item sets, the dimensionality of the document set is drastically reduced. But due to the reason of without considering potential semantic relationship among words, the clustering precision can not be further improved. In this paper, we merge the word semantic similarity computing which is based on CNKI into the Score function in FIHC. In this way, the defect of score function can be improved. Experimental results show that the improved FIHC has bet- ter cluster quality.

作者王秀慧殷旭彪薄文彦

机构地区山西大同大学教育科学与技术学院

出处《山西大同大学学报（自然科学版）》 2014年第1期4-7,共4页 Journal of Shanxi Datong University(Natural Science Edition)

基金山西省科技基础条件平台项目[2011091002-0102] 山西大同大学青年科研基金项目[2010Q13]

关键词聚类 FIHC 知网语义相似度 clustering FIHC CNKI semantic similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Benjamin C M Fung, Ke Wang, Martin Ester. Hierarchical Document Clustering Using Frequent Itemsets [C]. Proc of the SIAM International Conference on Data Mining, 2003.
2郭充,张仰森.基于《知网》义原搭配的中文文本语义级自动查错研究[J].计算机工程与设计,2010,31(17):3924-3928. 被引量：12
3孙爱香,杨鑫华.关于文本聚类有效性评价的研究[J].山东理工大学学报（自然科学版）,2007,21(5):65-68. 被引量：5

二级参考文献17

1杨峰,周宁,吴佳鑫.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683. 被引量：18
2张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
3王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18
4张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
5Dang H,Palmer M.Simple feature for Chinese word sense disambiguation[C].Taipei,Taiwan:Proceedings of the 19th International Conference on Computational Linguistics,2002.
6董振东董强.[EB/OL].知网http://www.keenage.com,2000.
7Leuski A. Evaluating document clustering for interactive information retrieval[D]. Massachusetts:University of Massachusetts, 2006
8Salton G. Automatic Text Processing[M]. Addison-wesley Publishing Company, 1988
9HUANG Xuan-jing. Research on retrieval classification and summarization for large scale text[D]. Shanghai: Fudan University, 1998
10David H, Heikki M, Padhraic S. Principles of data mining[M]．张银奎，廖丽，宋俊译．北京；机械工业出版社，2003

共引文献14

1熊晶,钟珞,王爱民.甲骨文本体构建方法研究及应用[J].武汉理工大学学报（信息与管理工程版）,2011,33(6):953-957. 被引量：5
2吴林,张仰森,王璐.《现代汉语语法信息词典》的概率化改造及其应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):57-61.
3吴夙慧,成颖,郑彦宁,潘云涛.基于学术文献同被引分析的K-means算法改进研究[J].情报学报,2012,31(1):82-94. 被引量：4
4张仰森,黄改娟,苏文杰.基于隐最大熵原理的汉语词义消歧方法[J].中文信息学报,2012,26(3):72-78. 被引量：8
5吴林,张仰森.基于知识库的多层级中文文本查错推理模型[J].计算机工程,2012,38(20):21-25. 被引量：10
6王璐,张仰森,吴林.基于多知识源的语义搭配知识获取及表示方法[J].计算机工程,2012,38(20):109-112. 被引量：2
7管君,谢玮,张仰森.基于多知识源的语义搭配知识库的构建及应用[J].计算机工程与设计,2013,34(6):2136-2140. 被引量：3
8王秀慧,王丽珍,麻淑芳.结合语义的改进FTC文本聚类算法[J].计算机工程与设计,2014,35(2):515-519. 被引量：5
9仰孝富,齐建东,吉鹏飞,朱文飞.一种CF树结合KNN图划分的文本聚类算法[J].计算机工程与应用,2015,51(6):114-119. 被引量：5
10姜赢,庄润钹,吴烨凡,朱玲萱.基于描述逻辑本体推理的语义级中文校对方法[J].计算机系统应用,2017,26(4):224-229. 被引量：6

同被引文献1

1王剑,吴定峰,阚京,赵华,刘建平.面向农业信息服务的单点登录技术研究与改进[J].计算机技术与发展,2016,26(5):191-196. 被引量：3

引证文献1

1吴定峰,王丽云,赵华,王剑,周国民.基于作者科研关系的农业科学数据聚类方法研究与展望[J].农业展望,2017,13(12):75-78.

1张书敏.短文本聚类算法研究[J].科技致富向导,2013(9):84-84.
2徐雅斌,李卓,吕非非,武装.基于频繁词集聚类的微博新话题快速发现[J].系统工程理论与实践,2014,34(S1):276-282. 被引量：7
3莫紫娟.试论短文本聚类算法在微博的应用[J].科技致富向导,2014(9):193-193.
4王乐,田李,贾焰,韩伟红.一个并行的文本聚类混合算法[J].计算机研究与发展,2007,44(z3):119-124.
5王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1746. 被引量：6
6邱云飞,赵彬,林明明,王伟.结合语义改进的K-means短文本聚类算法[J].计算机工程与应用,2016,52(19):78-83. 被引量：14
7李柰,王斌,关晶,王国仁.结构化网络中聚合Top-K查询优化技术[J].小型微型计算机系统,2007,28(11):2033-2037. 被引量：1
8王乐,田李,贾焰,韩伟红.基于频繁词集和k-Means的Web文本聚类混合算法[J].计算机工程与科学,2008,30(8):92-96. 被引量：6
9袁满,欧阳元新,熊璋,罗建辉.一种基于频繁词集的短文本特征扩展方法[J].东南大学学报（自然科学版）,2014,44(2):256-260. 被引量：15
10金焱,胡云安,张瑾,宋艳波.互信息与爬山法相结合的贝叶斯网络结构学习[J].计算机应用与软件,2012,29(9):122-125. 被引量：12

山西大同大学学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

改进的基于FIHC的科学数据聚类算法被引量：1

参考文献3

二级参考文献17

共引文献14

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

改进的基于FIHC的科学数据聚类算法 被引量：1

参考文献3

二级参考文献17

共引文献14

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

改进的基于FIHC的科学数据聚类算法被引量：1