期刊文献+

基于向量空间模型的过滤不良文本方法 被引量:14

Method of Filting Reactionary Text Based on Vector Space Model
下载PDF
导出
摘要 就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Na?veBayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向量法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。 This paper researches the vector space model for expressing text, and two datasets are used to evaluate the text expressing method, one is a balance data set, the other is a non-balance data set, which is used for filtering some specific text. It gets good precision using VSM and SVM on both data sets, however the result is poor using Naive Bayes model on the non-balance data set, especially to filter unseen reactionary Web text. The paper concludes that term weighting and normalization are very important technique to improve the precision.
作者 李强 李建华
出处 《计算机工程》 CAS CSCD 北大核心 2006年第10期4-5,8,共3页 Computer Engineering
基金 国家"863"计划基金资助项目(2003AA142160) 国家自然科学基金资助项目(60402019)
关键词 文本表示 文本归一化 向量空间模型 支持向量机 NAIVE Bayes模型 Text expressing Text normalization Vector space model Support vector machine Naive Bayes model
  • 相关文献

参考文献9

  • 1Salton G,Lesk M E.Computer Evaluation of Indexing and Text Processing[J].Journal of the ACM,1968,15(1):8-36.
  • 2Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Comm.ACM,1975,18 (11):613-620.
  • 3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量:293
  • 4Yang Yiming.An Evaluation of Statistical Approaches to Text Categorization[J].Journal of Information Retrieval,1999,1(1):67-88.
  • 5Lewis D D.Na(i)ve Bayes at Forty:The Independence Assumption in Information Retrieval[C].Proceedings of ECML-98,10th European Conference on Machine Learning,Chemnitz,Germany,1998:4-15.
  • 6JanZizka,Bourek A,Frey L.TEA:A Text Analysis Tool for the Intelligent Text Document Filtering[C].Third International Workshop on Text,Speech and Dialogue,2000-09:151-156.
  • 7Mitchell T.Machine Learning[M].New York:McGraw-Hill,1997.
  • 8Burges C.A Tutorial on Support Vector Machines for Pattern Recognition[J].Data Mining and Knowledge Discovery,1998,284(2):121-167.
  • 9Joachims T.Text Categorization With Support Vector Machines[C].Proceedings of the European Conference on Machine Learning.Springer Verlag,1998.

二级参考文献8

  • 1黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 2鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 4黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页
  • 5鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页
  • 6卜东波,博士学位论文,2000年
  • 7Yang Yiming,Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999年,42页
  • 8Yang Yiming,J Information Retrieval,1999年,1卷,1/2期,67页

共引文献292

同被引文献128

引证文献14

二级引证文献42

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部