文本聚类的重构策略研究被引量：5

Research on Reorganization of Text Clustering Results

下载PDF

导出

摘要该文提出面向文本距离并独立于聚类过程的聚类重构策略。提出邻近域的概念并阐述了邻近域规则,设计了高斯加权邻近域算法。利用高斯函数根据样本与聚簇中心的距离为样本赋权,计算聚簇间距。基于邻近域权重对文本聚类的结果实施重构。使用拆分算子拆分稀疏聚簇并调整异常样本;使用合并算子合并相似聚簇。实验显示聚簇重构机制能够有效地提高聚类的准确率及召回率,增加聚簇密度,使得形成的聚类结果更加合理。 This paper illustrates a distance oriented reorganization strategy in which clusters could be reorganized in independence from clustering process.The concept of Nearest Domain is proposed and Nearest Domain rules are elaborated.Then Gauss Weighing Algorithm is designed to re-wieght a text by the distance from cluster kernel.At last,Nearest Domain Weights will separates sparse clusters and adjusts abnormal texts while combines similar ones.Clustering experiment shows that reorganization process effectively improves the accuracy and recall rate and makes result more reasonable by increasing the inner density of clusters.

作者陈笑蓉刘作国

机构地区贵州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2016年第2期189-195,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61362028)

关键词文本聚类聚簇重构邻近域规则高斯加权 text clustering cluster reorganization nearest domain rule Gauss weighing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1MShahriar Hossain, Praveen Kumar Reddy Ojili, Cin- dy Grimm, et al. Scatter/Gather Clustering~ Flexibly Incorporating User Feedback to Steer Clustering Re- suits~J]. IEEE TRANSACTIONS ON VISUALIZA- TION AND COMPUTER GRAPHICS, 2012, 18 (12) : 2829-2838.
2王灿田,孙玉宝,刘青山.基于稀疏重构的超图谱聚类方法[J].计算机科学,2014,41(2):145-148. 被引量：2
3Jinjiang Li, Hui Fan, Da Yuan, et al. Kernel Function Clustering Based on Ant Colony Algorithm[C]//Guo Maozu. ICNC 2008. Jinan, China. 2008: 645-649.
4季铎,王智超,蔡东风,张桂平.基于高斯分布的簇间距离计算方法[J].中文信息学报,2008,22(3):50-55. 被引量：10
5曾依灵,许洪波,吴高巍,程学旗,白硕.一种基于空间映射及尺度变换的聚类框架[J].中文信息学报,2010,24(3):81-88. 被引量：2
6Nisha M N, Mohanavalli S, Swathika R. Improving the quality of Clustering using Cluster Ensembles [-C~//Proceedings of 2013 IEEE Conference on Infor- mation and Communication Technologies. 2013: 88- 92.
7刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117. 被引量：2
8陈建超,胡桂武,杨志华,严桂夺.基于全局性确定聚类中心的文本聚类[J].计算机工程与应用,2011,47(10):147-150. 被引量：5
9Amineh Amini, Teh Ying Wah, Mahmoud Reza Say- bani, et al. A Study of Density-Grid based Clustering Algorithms on Data StreamsEC] //Ding Yongsheng. FSKD 2011. Shanghai, China. 2011: 1652-1656.
10曾依灵,许洪波,吴高巍,白硕.一种基于语料特性的聚类算法[J].软件学报,2010,21(11):2802-2813. 被引量：8

二级参考文献71

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
3彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
4Dumais S.T.LSI Meets TREC:A Status Report[C]// D.Harman (Ed.) Prof,of The First Text RE-trieval Conference (TREC1),National Institute of Standards and Technology Special Publication 500-207,1993:137-152.
5Liu X.,Croft W.R Cluster-Based Retrieval Using Language Models[C]// Proc.of SIGIR,2004:186-193.
6Zamir O.,Etzioni O.,Madani O.,et al.Fast and Intuitive Clustering of Web Documents[C]// Proc.of KDD,1997:287-290.
7Han J.and Kamber M.Data Mining:Concepts and Techniques,Second Edition[M].Morgan Kaufmann Publishes,2006.
8Wu H.,Phang T.H.,Liu B.,et al.A Refinement Approach to Handling Model Misfit in Text Categorization[C]// SIGKDD,2002:207-216.
9Tan S.,Cheng X.,Ghanem MM,et al.A Novel Refinement Approach for Text Categorization[C]//Proc.of the 14th ACM CIKM,2005:469-476.
10Shawe-Taylor J.,Cristianini N.Kernel Methods for Pattern Analysis[M].Cambridge University Press,2004.

共引文献19

1张桂平,蔡东风.基于知识管理和智能控制的协同翻译平台——知识管理和机器翻译的融合[J].中文信息学报,2008,22(5):3-11. 被引量：9
2季铎,苗雪雷.知识聚类技术[J].沈阳航空工业学院学报,2008,25(5):58-62.
3汤林,陈建明,尚笑梅.基于机器学习的服装款式知识库设计[J].计算机与现代化,2011(3):9-11.
4杨攀,桂小林,田丰,王刚.一种高效的用于话题检测的关键词元聚类方法[J].西安交通大学学报,2012,46(10):24-28. 被引量：1
5李翔宇,王开军,郭躬德.基于算法选择和结果评估的自动聚类方法[J].计算机与数字工程,2012,40(11):39-42.
6刘金岭,宋连友,范玉虹.基于语义信息的中文短信文本相似度研究[J].计算机工程,2012,38(13):58-60. 被引量：9
7肖志军,冯广丽.基于《知网》义原空间的文本相似度计算[J].科学技术与工程,2013,21(29):8651-8656. 被引量：9
8张婕,山岚.CBC算法在网页分类中的应用研究[J].北京化工大学学报（自然科学版）,2013,40(B12):90-94. 被引量：1
9任睿.3dsmax环境下大规模城市建模研究[J].计算机光盘软件与应用,2014,17(5):39-39.
10韩忠明,陈妮,张慧,杨伟杰.一种非对称距离下的层次聚类算法[J].模式识别与人工智能,2014,27(5):410-416. 被引量：11

同被引文献64

1黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
2徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：389
3欧阳震诤,罗建书,胡东敏,吴泉源.一种不平衡数据流集成分类模型[J].电子学报,2010,38(1):184-189. 被引量：23
4夏云庆,杨莹,张鹏洲,刘宇飞.基于情感向量空间模型的歌词情感分析[J].中文信息学报,2010,24(1):99-103. 被引量：21
5王素格,李德玉,魏英杰.基于赋权粗糙隶属度的文本情感分类方法[J].计算机研究与发展,2011,48(5):855-861. 被引量：19
6李南,郭躬德,陈黎飞.基于少量类标签的概念漂移检测算法[J].计算机应用,2012,32(8):2176-2181. 被引量：7
7孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2393
8査奇文,张武,曾学文,宋毅.基于多核处理器的TCP/IP协议栈加速技术[J].网络新媒体技术,2013,2(1):58-64. 被引量：6
9董文会,常发亮,李天平.融合颜色直方图及SIFT特征的自适应分块目标跟踪方法[J].电子与信息学报,2013,35(4):770-776. 被引量：31
10张静,桑红石,沈绪榜.SIFT并行结构中的滤波器时分复用控制器[J].华中科技大学学报（自然科学版）,2013,41(3):6-10. 被引量：1

引证文献5

1曾珍珍.一种计算机视觉算法的图像处理技术[J].信息技术,2018,42(4):74-78. 被引量：8
2杨姣,高仲合,王来花,韦锦涛.数据流聚类挖掘算法优化研究[J].曲阜师范大学学报（自然科学版）,2018,44(3):38-40. 被引量：1
3李欣,李旸,王素格.面向情感聚类的文本相似度计算方法研究[J].中文信息学报,2018,32(5):97-104. 被引量：8
4徐菲菲,陈赛红.中文文本主题聚类算法研究综述[J].上海电力大学学报,2021,37(6):613-619. 被引量：4
5王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2

二级引证文献23

1崔茜.基于计算机视觉算法的图像处理技术的研究[J].计算机产品与流通,2020,0(5):111-111. 被引量：2
2吴丰盛.计算机视觉图像处理技术在茶领域中的运用[J].福建茶叶,2018,40(10):25-25. 被引量：2
3陈宏君,谢建民.基于计算机视觉算法的图像处理技术的研究[J].吉林广播电视大学学报,2019(10):158-160. 被引量：6
4李亚丽,张国平.计算机视觉算法的图像处理技术研究[J].电脑编程技巧与维护,2019,0(12):148-149. 被引量：1
5张强.基于计算机视觉的垃圾焚烧特征的提取分析[J].计算机与数字工程,2020,48(2):488-491.
6胡艳霞,王成,李弼程,李海林,吴以茵.基于多头注意力机制Tree-LSTM的句子语义相似度计算[J].中文信息学报,2020,34(3):23-33. 被引量：18
7赵嘉.基于人眼视觉特性的包装设计图像处理算法[J].现代电子技术,2020,43(18):135-138. 被引量：4
8宋雪亚,王传安.文本信息分词处理下的智能家电离线语音识别[J].自动化与仪器仪表,2020(12):161-164. 被引量：2
9吴笑嫦.计算机视觉算法下图像校正技术研究[J].黑河学院学报,2020,11(12):184-185. 被引量：1
10徐积文,张永棠.基于用户情感分析的个性化推荐研究[J].新一代信息技术,2020,3(24):7-10.

1童思维,汤勃,孔建益,王兴东.基于非局部均值的带钢表面图像去噪[J].机械设计与制造,2016(12):242-244.
2文春武,宋杰,姚家振.基于RSSI校正的无线传感器网络定位算法[J].传感器与微系统,2014,33(12):134-136. 被引量：17
3刘作国,陈笑蓉.高斯加权的重构性K-NN算法研究[J].中文信息学报,2015,29(5):112-116. 被引量：1
4李为华,刘宏兵.彩色图像的球形粒计算分割算法[J].信阳师范学院学报（自然科学版）,2014,27(2):296-298. 被引量：5
5贾迪,孟祥福,孟琭,董娜,方金凤.结合高斯加权距离图的图像边缘提取[J].中国图象图形学报,2014,19(1):62-68. 被引量：9
6秦晅,罗丽莉.改进的SIFT算法在图像匹配中应用研究[J].现代电子工程,2009(5):49-52.
7李博,杨丹,张小洪.一种新的基于梯度方向直方图的图像配准方法[J].计算机应用研究,2007,24(3):312-314. 被引量：6
8王骏武,马程.基于共生纹理特征的表面粗糙度测量[J].科技风,2009(4X):1-2.
9庄培显,戴声奎.基于高斯加权的GeesePSO改进算法[J].计算机科学,2013,40(06A):87-89.
10吕知辛,黄尊灵.图像平滑的高斯加权平均算法[J].计算机系统应用,1998,7(7):42-42. 被引量：7

中文信息学报

2016年第2期

浏览历史

内容加载中请稍等...

文本聚类的重构策略研究被引量：5

参考文献10

二级参考文献71

共引文献19

同被引文献64

引证文献5

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

文本聚类的重构策略研究 被引量：5

参考文献10

二级参考文献71

共引文献19

同被引文献64

引证文献5

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

文本聚类的重构策略研究被引量：5