期刊文献+

一种基于段落同现频率的加权方法 被引量:3

A Feature Value Weighted Method Based on Paragraph Co-occurrence Frequency
原文传递
导出
摘要 聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。 The research on clustering algorithms has already become a focus. So how to apply these classical clustering algorithms to text clustering is a very important issue. This paper presents a feature value weighted method based on semantic analysis by using Paragraph Co-occurrence Frequency(PCF). Experiment indicates that the semantic analysisbased feature value weighted method could improve the text clustering result by 10% and the PCF threshold has a great influence on the text clustering result.
出处 《信息安全与通信保密》 2009年第12期57-59,63,共4页 Information Security and Communications Privacy
基金 上海科委科技攻关基金资助项目(编号:08511501902)
关键词 特征向量模型 段落同现频率 特征向量加权 vector space model(VSM) paragraph co-occurrence frequency(PCF) feature value weighted
  • 相关文献

参考文献4

  • 1Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques[M].范明,孟晓峰,译.北京:机械工业出版,2001.
  • 2包学超,孙强,李生红.隐性语义的SVM文本分类模型[J].信息安全与通信保密,2005,27(5):29-31. 被引量:5
  • 3蔡慧,韩国栋,刘洪波.基于K均值聚类的拓扑生成算法[J].通信技术,2008,41(9):110-112. 被引量:5
  • 4Cheeseman P, Stutz J. Bayesian Classification (AutoClass): Theoryand Results[C]//Proc. of Advances in Knowledge Discovery and Data Mining. Menlo Park. CA, USA: American Association for Artificial Intelligence, 1996: 153-180.

二级参考文献2

  • 1Waxman B M. Routing of Multipoint Connections[J]. IEEE Journal of Selected Areas in Communication (JSAC), 1988, 6(9): 1617-1622.
  • 2Doar M. Multicast in the Asynchronous Transfer Mode Environment [D]. PhD thesis, Cambridge: University of Cambridge, 1993.

共引文献8

同被引文献19

  • 1段海滨,王道波,朱家强,黄向华.蚁群算法理论及应用研究的进展[J].控制与决策,2004,19(12):1321-1326. 被引量:211
  • 2李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报(自然科学版),2005,33(3):53-55. 被引量:19
  • 3高尚,汤可宗,杨静宇.一种新的基于混合蚁群算法的聚类方法[J].微电子学与计算机,2006,23(12):38-40. 被引量:17
  • 4周树德,孙增圻.分布估计算法综述[J].自动化学报,2007,33(2):113-124. 被引量:210
  • 5祝华新,单学刚,胡江春.2009年中国互联网舆情分析报告[EB/OL](2010-03-14)[2010-05-27]http://www.wyzxsx.com/Article/Class4/201003/138330.html.
  • 6韩家炜.数据挖掘--概念与技术[M].北京:机械工业出版社,2006.
  • 7DORIGO M, MANIEZZO V, cOLORNt Anf system Optimization by a colony of c06perating agents [ J ] . IEEE. Ttans on Systems Map, and Cybernetics-Part B, 1996,26(1.) :1-13.
  • 8中国科学院计算技术研究所数字化室.中文自然语言处理开放平台[DB/OL].(2011-05-25)[2011-07-06].http:/www.nlp.0rg.cn/.
  • 9董振东 董强.知网[EB/OL].http://www.keenage.com,2002.
  • 10刘群 李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.

引证文献3

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部