期刊文献+

基于段落匹配的文本分类机制 被引量:3

The Mechanism for Text Categorization Based on Passages
下载PDF
导出
摘要 文本分类是海量文本组织和管理的重要方法,文章提出了基于段落匹配的文本分类机制。其基本思想是:对于文本特征向量进行概念扩充,减少特征项之间的相关性,增强特征项的表现能力。选取文本段落作为分类的基本要素,通过段落匹配的约束,防止由发散特征引起的假相关现象,从而获取较高精度的文本分类结果。 Text categorization plays an important role in organizing and managing the huge amount of texts.The mecha-nism for text categorization based on passages is presented.It applies the concept and association expansion to text fea-ture vectors in order to reduce the relevant degree of terms and enhance the ability to represent the text theme.In ad-dition,it selects the passages of texts as the basic elements for text categorization in order to avoid the phenomena of false correlation between texts and classes.As a result,it can make high categorization precision,and it is independent of Chinese parser and domain knowledge bases,and it is easy to apply in wide range and its speed is fast.
作者 郑海 林鸿飞
出处 《计算机工程与应用》 CSCD 北大核心 2004年第28期174-176,共3页 Computer Engineering and Applications
关键词 文本分类 概念扩充 段落匹配 text categorization,conceptual expansion,passage match
  • 相关文献

参考文献8

  • 1姚天顺.自然语言理解[M].北京:清华大学出版社,1995..
  • 2刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量:45
  • 3林鸿飞,战学刚,姚天顺.基于概念的文本结构分析方法[J].计算机研究与发展,2000,37(3):324-328. 被引量:35
  • 4战学刚,林鸿飞,姚天顺.中文文献的层次分类方法[J].中文信息学报,1999,13(6):20-25. 被引量:22
  • 5郑文贞.段落的组织[M].福建人民出版社,1984..
  • 6David D Lewis. Challenge in Machine Learning for Text Classification[C].In:Proceedings of the Ninth Annual Conference on Computational Learning Theory, Desenzano del Garda, Italy, Http://www.research.att.com/~lewis, 1996
  • 7J P Callan. Passage-level Evidence in Document Retrieval[C].In:Proceedings of the 17th ACM SIGIR Conference on Research and Development in Information Retrieval,1994:302~310
  • 8Marcin Kaszkiel,Justin Zobel. Passage Retrieval Revisited[C].In:Proceedings of the 20th ACM SIGIR Conference on Research and Development in Information Retrieval, 1997:178~185

二级参考文献13

  • 1靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量:3
  • 2战学刚 姚天顺.基于汉语分析的中文分类方法.1998中文信息处理国际会议论文集[M].北京:清华大学出版社,1998..
  • 3刘开瑛,计算机期刊关键词标引统计分析技术报告,1996年
  • 4刘开瑛,中国人民银行××省分行《重要文件汇编》的主题词标引研究技术报告,1996年
  • 5战学刚,1998中文信息处理国际会议论文集,1998年
  • 6吴立德,大规模中文文本处理,1997年
  • 7姚天顺,自然语言理解.一种让机器懂得人类语言的研究,1995年
  • 8Yang Yiming,http://www.cs.cmu.edu//yiming
  • 9孙周亮,刘冀,谈新,董晓华,舒章康.近50 a澴河上游汛期降雨径流多尺度时空演变[J].长江流域资源与环境,2018,27(6):1324-1332. 被引量:12
  • 10黎云云,畅建霞,王於琪,金文婷,郭爱军,樊晶晶.渭河流域河川径流对气候变化的时空响应机理[J].应用基础与工程科学学报,2018,26(3):502-514. 被引量:8

共引文献100

同被引文献21

引证文献3

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部