期刊文献+

基于Bigram的特征词抽取及自动分类方法研究 被引量:5

Dictionary-Free Chinese Words Acquisition Method Based on Bigram
下载PDF
导出
摘要 用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。 Automatic text category is a common topic in computational linguistcs.ln this paper,based on Bigram,we propose a dictionary-free Chinese words acquisition method.Moreover.we increase the accuracy of the lexical acquisition through the mutual-information theory.ln addition,we validate the words effection through SVM algorithm to classify the texts.
作者 王笑旻
出处 《计算机工程与应用》 CSCD 北大核心 2005年第22期177-179,210,共4页 Computer Engineering and Applications
关键词 自动文本分类 自动分词 互信息 Bigram automatic text category,automatic word acquisition,mutual information,Bigram
  • 相关文献

参考文献7

  • 1卢增祥,李衍达.交互支持向量机学习算法及其应用[J].清华大学学报(自然科学版),1999,39(7):93-97. 被引量:40
  • 2张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量:2260
  • 3.中国土地忧思录:征地让农民如此心痛谁来监管[EB/OL].http:∥finance.sina.com.cn,2003年09月09日.
  • 4Thorsten Joachims.Text Categorization with Support Vector Machine:Learning with many Relevant Features[ R ].Research Reports of AI,University of Dortmund, 1997.
  • 5Yu Jiangsheng. Vector Space Model. Institute of Computational Linguisitics, Peking University, 2002.
  • 6Ji He,Ah_Hwee Tan,Chew-Lim Tan. Machine Learning Methods for Chinese Web Page Categorization.
  • 7G J Bex. Markov language models.http:∥alpha.luc.ac.be/~gjb/MITCL/languageModels.pdf.

二级参考文献3

共引文献2287

同被引文献42

引证文献5

二级引证文献49

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部