中文文本的意群分类算法

Sense Group Categorization Algorithm for Chinese Text

下载PDF

导出

摘要目前中文文本分类算法大多利用词语或词语映射为特征项的分类方式,未考虑中文语法语义的特点,导致分类性能较低。为此,提出中文文本的意群分类算法。通过中文依存句法分析结果制定规则提取意群,并作为特征项表示文本,进而采用支持向量机的方法对训练集进行学习,最终构建类别意群库对测试文本进行分类。实验结果表明,与基于词语的分类方法相比,意群分类算法在分类性能上平均提升3个百分点,平均查准率达到97%。 In general,the conventional word-form based Chinese text categorization approach which does not give further consideration on Chinese linguistic feature often has poor performance.A new algorithm of Chinese text categorization based on sense group is proposed.This algorithm extracts sense group by analyzing Chinese dependency parsing results and developing extraction rules.Here uses Support Vector Machine（SVM） to training test documents to build the category sense group library which is used in test.Experimental results display that the method based on sense group reaches accuracy up to 97%,which is 3% higher than the way which is based on words.

作者李志彤易军凯

机构地区北京化工大学信息科学与技术学院

出处《计算机工程》 CAS CSCD 2013年第8期204-207,214,共5页 Computer Engineering

基金国家"863"计划基金资助重点项目(2009AA01Z433)

关键词文本分类意群支持向量机语义概念依存句法类别意群库 text categorization sense group Support Vector Machine（SVM） semantic concept dependency parsing category sense group library

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
2代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
3廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
4冯扬,罗森林,潘丽敏,刘莉莉,陈开江.基于概念簇的文本向量构建方法[J].通信学报,2010,31(S1):44-47. 被引量：2
5周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
6徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
7段湘煜,赵军,徐波.基于动作建模的中文依存句法分析[J].中文信息学报,2007,21(5):25-30. 被引量：11
8Zhang Wen,Yoshida T,Tang Xijin.Text Classification Basedon Multi-word with Support Vector Machine[J].Knowledge-based Systems,2008,21(8):879-886.
9Wang Taiyue,Chiang Huei-Min.One-against-one FuzzySupport Vector Machine Classifier:An Approach to TextCategorization[J].Expert Systems with Applications,2009,36(4):10030-10034.
10刘挺,马金山,李生.基于词汇支配度的汉语依存分析模型[J].软件学报,2006,17(9):1876-1883. 被引量：24

二级参考文献50

1钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
2王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
5赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
6胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
7刘伟权,王明会,钟义信.建立现代汉语依存关系的层次体系[J].中文信息学报,1996,10(2):32-46. 被引量：17
8刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
9董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389

共引文献926

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
7张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
8张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
9王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
10蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1

1笑泉.语音链接（五）[J].考试与评价（英语七年级专刊）,2009(5):13-14.
2桂斌,杨小平,朱建林,张中夏,肖文韬.基于意群划分的中文微博情感倾向分析研究[J].中文信息学报,2015,29(3):100-105. 被引量：8
3薛萍.英语阅读小技巧[J].内江科技,2009,30(1):158-158.
4易军凯,孟庆庆.基于意群的计算机证据倾向性研究[J].北京化工大学学报（自然科学版）,2010,37(1):126-129. 被引量：4
5朱明,梁栋,范益政,张艳,颜普.基于谱特征的图像匹配算法[J].华南理工大学学报（自然科学版）,2015,43(9):60-66. 被引量：9
6王千惠.开放式杀毒软件弊多利少[J].微电脑世界,1996(1):145-145.
7黄斌,史亮,邓小鸿.一个群签名方案的安全性分析[J].计算机工程,2013,39(4):151-153. 被引量：2
8李晨,朱世伟,魏墨济,于俊凤,李新天.基于词典与规则的新闻文本情感倾向性分析[J].山东科学,2017,30(1):115-121. 被引量：18
9计峰,邱锡鹏.基于序列标注的中文依存句法分析方法[J].计算机应用与软件,2009,26(10):133-135. 被引量：6
10赵杰,张宏伟.多利农业物联网示范基地建设的实践[J].上海农业科技,2016(5):9-10.

计算机工程

2013年第8期

浏览历史

内容加载中请稍等...

中文文本的意群分类算法

参考文献12

二级参考文献50

共引文献926

相关作者

相关机构

相关主题

浏览历史