期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

面向线性文本的K-means聚类算法研究

Research on K-means Clustering Algorithm of Linear Text

下载PDF

导出

摘要鉴于线性文本内容组织形式的有序性,将有序的主题内容进行正确的划分,用于挖掘文本中隐藏的信息、知识,是一个值得研究的问题。同时,传统的K-means聚类算法在对线性文本进行聚类时,会造成计算复杂度增加以及无穷迭代或聚类结果混乱等一系列问题。针对以上问题,对传统的K-means算法进行研究,将随机初始化中心点的算法进行改进,提出一种随机均匀初始化中心点算法。该算法充分考虑线性文本的组织结构特性,随机化第一个中心点后,均匀地确定其他中心点,保证了文本子主题的完整划分;与此同时,又采用了设定约束规则的等距点归类法,实现文本迭代次数限制下的自动归类。实验结果表明,该算法在对线性文本进行聚类时,可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果。 In view of the orderliness of the organized form of linear texts,it is worthwhile studying to mine the hidden information andknowledge from the text by dividing the subject content correctly. At the same time,the traditional K-means clustering algorithm willconduce to a series of problems such as increasing computational complexity,infinite iteration phenomenon or clustering results confu-sion. For this,we research the traditional K-means algorithm and improve the algorithm of randomly initializing center,based on whichwe propose a random uniform initialization center algorithm. This algorithm gives plenty of considerations to the organizational structureof linear texts. After one central point is randomized,other central points are uniformly determined to ensure the sufficiently division ofthe subtopic. Meantime,we adopt an equidistant point categorization under the constraint rules to realize automatic classification under thelimit of text iteration. The experiment illustrates that the proposed algorithm can effectively cut down iteration times and improve theclustering accuracy when clustering linear texts,obtaining the better clustering outcome at last.

作者文必龙李菲马强 WEN Bi-long;LI Fei;MA Qiang(School of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China)

机构地区东北石油大学计算机与信息技术学院

出处《计算机技术与发展》 2018年第9期53-58,共6页 Computer Technology and Development

基金国家重大专项(2016ZX05033-005-004)

关键词线性文本组织结构随机均匀取点等距点归类 K-MEANS算法 linear text organizational structure random and even center point selection isometric point classification K-means algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：87
2吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：167
3马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
4翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：109
5周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：145
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
7邓海,覃华,孙欣.一种优化初始中心的K-means聚类算法[J].计算机技术与发展,2013,23(11):42-45. 被引量：22
8田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
9曾利沙.主题与主题倾向关联下的概念语义生成机制——也谈语篇翻译意识与TEM8语段翻译教学[J].外语教学,2007,28(3):83-87. 被引量：30
10林鸿飞,战学刚,姚天顺.文本层次分析与文本浏览[J].中文信息学报,1999,13(4):7-15. 被引量：12

二级参考文献210

1曾利沙.英语线性段落结构模式研究[J].外语教学与研究,1994,26(1):20-26. 被引量：42
2刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
3胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
4臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
5颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
6张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
7曾利沙.主题关联性社会文化语境与择义的理据性——TEM8英译汉应试教学谈[J].中国翻译,2005,26(4):36-40. 被引量：46
8张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：61
9王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
10李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39

共引文献975

1赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：6
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
4宋可.Word文本结构分析[J].教学与管理（理论版）,2004(9):95-96.
5左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
6王生昌,李良敏,杨立本,邱兆文.营运车辆驾驶人适宜性甄别检测评价系统研究[J].交通信息与安全,2013,31(1):65-69. 被引量：2
7李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
8高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
9黄仁,冯阿瑞.基于Ncut的自适应图像分割方法[J].土木建筑与环境工程,2013,35(S2):107-110. 被引量：2
10薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2

1谢继红,刘华山,吴鹏.超文本与线性文本中元理解判断的比较[J].心理学探新,2018,38(1):49-54. 被引量：2
2丁喜旺.基于K-means聚类算法的高校创业教育创新探索[J].西南科技大学学报（哲学社会科学版）,2018,35(4):90-96. 被引量：2
3胡若海.谈谈物理、化学、生物学科之间的联系[J].青苹果,2017,0(6):63-64.
4黄荷.“英语文学最长句”中的逻辑语义关系:功能文体学视角[J].外语教学,2017,38(6):37-41. 被引量：8
5顾铭轩,王刚贞.基于K—Means聚类算法的APP定价因素分析——以拍照赚钱APP为例[J].哈尔滨师范大学自然科学学报,2018,34(2):1-6.
6李文杰.正交多项式配经验公式及其运用[J].山东体育科技,1986,8(3):69-73.
7魏明军,田昆.改进K中心点算法在入侵检测的应用[J].河北能源职业技术学院学报,2017,17(4):57-59.
8项铁铭,王建成.改进的多目标粒子群优化算法[J].计算机应用与软件,2017,34(9):302-305. 被引量：4
9陈毅恒,李雪婷,王彪,刘挺.基于网络结构的多种用户影响力分析算法对比研究[J].中文信息学报,2017,31(4):216-222. 被引量：1
10高栋南.基于多线激光雷达的道边检测算法[J].软件导刊,2018,17(7):23-26. 被引量：1

计算机技术与发展

2018年第9期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部