语言自然节奏在文本分类中的研究与应用被引量：2

Research and application language nature rhythm in documents category

下载PDF

导出

摘要大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当前主流基于词条特征的文本分类方法不同,不需要理解和分析语义,即无需分析文章中的词条,特征空间小,数据稀疏性现象不明显,文本分类效果显著。 Large scale documents category is very complex in text analysis. A new method based on language nature rhythm. Analysing the feature marked by punctuations in language, using Bayesian classifier, text category can be finished efficiently. This method is different from the others, without understanding any words and semantic. It is easy to get a remarkable effect with a small feature space and weak data sparsity.

作者陈钒冯志勇

机构地区天津大学计算机科学与技术学院天津财经大学理工学院信息科学与技术系

出处《计算机工程与应用》 CSCD 2012年第30期28-32,共5页 Computer Engineering and Applications

基金天津市高等学校科技发展基金项目(No.20110819)

关键词文本分类标点符号语言自然节奏状态转移 text category punctuations language nature rhythm state switch

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
2申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
3钱揖丽,荀恩东.基于标点信息和统计语言模型的语音停顿预测[J].模式识别与人工智能,2008,21(4):541-545. 被引量：8
4陈钒,冯志勇,李晓红,赵庚.基于语言节奏的大规模文档去重算法研究[J].计算机工程与应用,2011,47(11):15-18. 被引量：3
5MANNING CD,SCHUTZE H．统计自然语言处理基础[M]．苑春法，等译．北京：电子工业出版社，2005．
6Frasconi P,Soda G,Vullo A.Hidden Markov models for text categorization in multi-page documents[J].Journal of Intelligent Information Systems, 2002,18 (2/3) 195-217.
7李柏年,吴礼斌.MATLAB数学分析方法[M].北京:机械工业出版社,2012.
8Geiger D.An entropy-based learning algorithm of bayes- ian conditional trees[C]//Proceedings of the 8th Annual Conference on Uncertainty in Artificial Intelligence, Stan- ford, California, 1992 : 92-97.

二级参考文献36

1杨锦陈,杨玉芳.言语产生中的韵律生成[J].心理科学进展,2004,12(4):481-488. 被引量：13
2李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
4郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
5中国互联网络信息中心(CNNIC).第25次中国互联网络发展状况统计报告[EB/OL].(2010-01-18].http://www.cnnic.net.cn/html/Dir/2010/01/15/5767.htm.
6Galavotti L,Sebastiani F,Simi M.Experiments on the Use of Feature Selection and Negative Evidence in Automated Text Categorization[C] //Proc.of ECDL'00.Lisbon,Portugal:[s.n.] ,2000:59-68.
7Mladenic D,Brank J,Grobelnik M,et al.Feature Selection Using Linear Classifier Weights:Interaction with Classification Models[C] //Proc.of the 27th ACM SIGIR Conference on Research and Development in Information Retrieval.Sheffield,United Kingdom:ACM Press,2004:234-241.
8Chih-Wei Hsu,Chih-Chung Chang,Chih-Jen Lin.A Practical Guide to Support Vector Classification[EB/OL].(2009-05-19).http://www.csie.ntu.edu.tw/～cjlin.
9Shivakumar N, Molina H G.Finding near-replicas of documents and servers on the Web[C]//Proceedings of the International Workshop on World Wide Web and Databases, Valencia, Spain, 1998:204-212.
10Manber U.Finding similar files in a large file system[C/OL]// Proceedings of the Winter USENIX Conference, 1994: 1-10. http://manber.com/publications.html.

共引文献69

1王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
2谈文蓉,符红光,刘莉,杨宪泽.一种基于贝叶斯分类与机读词典的多义词排歧方法[J].计算机应用,2006,26(6):1389-1391. 被引量：5
3司广涛,李培峰,朱巧明,李军辉.基于最大熵模型的邮件过滤系统研究[J].计算机工程与应用,2006,42(32):119-121.
4梁健,王惠临.基于文本的本体学习方法研究[J].情报理论与实践,2007,30(1):112-115. 被引量：11
5李兆翠,刘培玉,周洪利.基于贝叶斯方法的客户端邮件过滤器的设计与实现[J].信息技术与信息化,2007(3):90-92. 被引量：1
6李新福.组合降维技术在中文网页分类中的应用[J].计算机工程与应用,2007,43(24):169-171. 被引量：3
7张元虹,郭剑毅,龚华明,薛征山.基于DF与LSA相结合的降维法的文本分类系统的研究[J].山西电子技术,2008(4):3-4. 被引量：1
8郑雅婷,张鹰.Web文本挖掘技术在网上购物中的应用[J].牡丹江师范学院学报（自然科学版）,2008,34(4):11-13.
9葛诗利,陈潇潇.文本聚类在大学英语作文自动评分中应用[J].计算机工程与应用,2009,45(6):145-148. 被引量：10
10熊忠阳,蒋健,张玉芳.新的CDF文本分类特征提取方法[J].计算机应用,2009,29(7):1755-1757. 被引量：11

同被引文献3

1金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
2郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
3杨华,姬东鸿,陈波.基于话题相关的文档集的无向基本要素网络的连通性探讨[J].中文信息学报,2015,29(4):103-110. 被引量：2

引证文献2

1何婕.语言节奏在话题追踪中的研究与应用[J].数字技术与应用,2017,35(2):127-127.
2郭崇.基于数据挖掘技术的数据显示处理器开发研究[J].数字技术与应用,2017,35(2):128-129.

1王昊鹏,王卫东,李森.基于元数据的科技论文分类方法[J].山东师范大学学报（自然科学版）,2008,23(3):41-43. 被引量：3
2陆敬筠,宋培钟.领域本体和刻面描述相结合的构件检索研究[J].计算机应用与软件,2013,30(8):36-38. 被引量：2
3李辉.iPad将替代笔记本? 2010年成平板之年[J].网络与信息,2011,25(2):14-14.
4日本开发出会分析文章的软件[J].中外科技信息,2002(11):70-70.
5美刊预测：互联网2007将成为Widget年[J].信息技术教育,2007(3):6-6.
6专统即时通讯软件的没落[J].计算机与网络,2009,35(2):6-6.
7林泽琦,赵俊峰,谢冰.一种基于图数据库的代码结构解析与搜索方法[J].计算机研究与发展,2016,53(3):531-540. 被引量：8
8刘清华,黄明和,唐权华,王渊.一种预测群体用户访问行为的算法[J].计算机技术与发展,2014,24(2):59-62.
9殷存举.MVC框架在联系人管理网站中的应用[J].科技视界,2014(17):65-65.
10谢丽华.网页设计与制作实用技术初探[J].数字技术与应用,2014,32(7):154-154.

计算机工程与应用

2012年第30期

浏览历史

内容加载中请稍等...

语言自然节奏在文本分类中的研究与应用被引量：2

参考文献8

二级参考文献36

共引文献69

同被引文献3

引证文献2

相关作者

相关机构

相关主题

浏览历史

语言自然节奏在文本分类中的研究与应用 被引量：2

参考文献8

二级参考文献36

共引文献69

同被引文献3

引证文献2

相关作者

相关机构

相关主题

浏览历史

语言自然节奏在文本分类中的研究与应用被引量：2