期刊文献+

语言自然节奏在文本分类中的研究与应用 被引量:2

Research and application language nature rhythm in documents category
下载PDF
导出
摘要 大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当前主流基于词条特征的文本分类方法不同,不需要理解和分析语义,即无需分析文章中的词条,特征空间小,数据稀疏性现象不明显,文本分类效果显著。 Large scale documents category is very complex in text analysis. A new method based on language nature rhythm. Analysing the feature marked by punctuations in language, using Bayesian classifier, text category can be finished efficiently. This method is different from the others, without understanding any words and semantic. It is easy to get a remarkable effect with a small feature space and weak data sparsity.
作者 陈钒 冯志勇
出处 《计算机工程与应用》 CSCD 2012年第30期28-32,共5页 Computer Engineering and Applications
基金 天津市高等学校科技发展基金项目(No.20110819)
关键词 文本分类 标点符号 语言自然节奏 状态转移 text category punctuations language nature rhythm state switch
  • 相关文献

参考文献8

二级参考文献36

  • 1杨锦陈,杨玉芳.言语产生中的韵律生成[J].心理科学进展,2004,12(4):481-488. 被引量:13
  • 2李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量:20
  • 3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量:79
  • 4郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报(自然科学版),2006,46(1):78-81. 被引量:3
  • 5中国互联网络信息中心(CNNIC).第25次中国互联网络发展状况统计报告[EB/OL].(2010-01-18].http://www.cnnic.net.cn/html/Dir/2010/01/15/5767.htm.
  • 6Galavotti L,Sebastiani F,Simi M.Experiments on the Use of Feature Selection and Negative Evidence in Automated Text Categorization[C] //Proc.of ECDL'00.Lisbon,Portugal:[s.n.] ,2000:59-68.
  • 7Mladenic D,Brank J,Grobelnik M,et al.Feature Selection Using Linear Classifier Weights:Interaction with Classification Models[C] //Proc.of the 27th ACM SIGIR Conference on Research and Development in Information Retrieval.Sheffield,United Kingdom:ACM Press,2004:234-241.
  • 8Chih-Wei Hsu,Chih-Chung Chang,Chih-Jen Lin.A Practical Guide to Support Vector Classification[EB/OL].(2009-05-19).http://www.csie.ntu.edu.tw/~cjlin.
  • 9Shivakumar N, Molina H G.Finding near-replicas of documents and servers on the Web[C]//Proceedings of the International Workshop on World Wide Web and Databases, Valencia, Spain, 1998:204-212.
  • 10Manber U.Finding similar files in a large file system[C/OL]// Proceedings of the Winter USENIX Conference, 1994: 1-10. http://manber.com/publications.html.

共引文献69

同被引文献3

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部