期刊文献+

短信文本分类技术的研究 被引量:2

Research on Text Classification Technology for Message
下载PDF
导出
摘要 短信作为一种重要的交流手段,发挥着越来越重要的作用。但伴随着短信的广泛使用,垃圾短信则严重影响着人们的生活,因此文中基于短信文本特征词对短信进行分类研究。其中,TF-IDF特征词权重计算方法是对文本词汇权重计算的一种经典算法,得到了广泛应用。但此方法为了简化计算,忽略了词语之间的相互关系。针对此问题,依据同一短信文本中的词汇之间存在的相互关系,文中对权重计算法进行了调整,提出了基于模糊K均值的短信文本分类算法。即先将短信文本集用TF-IDF算法处理,得到词汇-文本集,再用模糊K均值算法对得到的词汇-文本集进行处理。最后通过实验,验证了基于模糊K均值的短信文本分类算法,其分类结果的查全率和查准率都较高,有效辨别了垃圾短信。 As an important means of communication,SMS plays an increasingly important role. But along with the extensive use of SMS,SMS spam seriously influences people's lives. Therefore,the classification of SMS is researched based on the keywords in this paper. TF- IDF weight calculation method is a classical algorithm to calculate the text word weight,which is widely used. But in order to calculate simply,this method ignores the mutual relations between words. Aiming at this problem,based on the same relationship between words in the text messages,in this paper,the weighting method is used for adjusting,it puts forward the text classification based on fuzzy K-means algorithm. The text set is processed by TF- IDF algorithm,getting a vocabulary- text set. Then fuzzy K- means algorithm is used to get a vocabulary- text set. Finally,through the experiment to verify the text classification based on fuzzy K- means algorithm,the classification results of recall and precision is high.
出处 《计算机技术与发展》 2016年第5期145-148,共4页 Computer Technology and Development
基金 国家自然科学基金资助项目(11241005) 山西省高等学校教学改革研究项目(J2012098) 运城学院教学改革研究项目(JG201418)
关键词 短信文本分类 向量空间模型 模糊聚类 模糊K均值 text categorization vector space model fuzzy clustering fuzzy K-means
  • 相关文献

参考文献13

二级参考文献50

共引文献52

同被引文献21

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部