基于自适应中文分词和近似SVM的文本分类算法被引量：21

Text Classification Algorithm Based on Adaptive Chinese Word Segmentation and Proximal SVM

下载PDF

导出

摘要中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。 New words recognition and ambiguity resolving are key problems in Chinese word segmentation. The result of traditional dictionary-based matching algorithm largely depends on the representative of the dictionary so that it can not recognize new words effectively, especially in some professional domains. Chinese word segmentation method in this dissertauon is based on 2-gram statistical model and can meet the requirements of application in accuracy and efficiency respectively. PSVM takes classification as a linear equality quadratic programming problem. This dissertation describes a text classification algorithm based on adaptive chinese word segmentation and PSVM, which has faster training speed and smaller memory requirements advantages. Several data sets of experiments showed that the classification algorithm can automatically adapt to knowledge management of some professional domains and has better elassfication performance under the condition of time-sensitive.

作者冯永李华钟将叶春晓

机构地区重庆大学计算机学院

出处《计算机科学》 CSCD 北大核心 2010年第1期251-254,293,共5页 Computer Science

基金重庆市自然科学基金(2008BB2183) 中国博士后科学基金(20080440699) 国家社会科学基金(ACA07004-08)资助

关键词自适应中文分词近似支持向量机文本分类知识管理 Adaptive chinese word segmentation, Proximal support vector machines, Text classification, Knowledge management

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3冯书晓,徐新,杨春梅.国内中文分词技术研究新进展[J].情报杂志,2002,21(11):29-30. 被引量：25
4黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6冯冲,陈肇雄,黄河燕,关真珍.基于Multigram语言模型的主动学习中文分词[J].中文信息学报,2006,20(1):50-58. 被引量：6
7曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
8张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
9Goh C-L, Asahara M, Matsumoto Y. Chinese Word Segmentation by Classification of Characters[J]. Computational Linguistics and Chinese Language Processing, 2005,10 (3) : 381-396.
10Wang Zhuoran, Liu Ting. Chinese Unknown Word Identification Based on Local Bigram Model[J]. International Journal of Computer Processing of Oriental Languages, 2005,18(3) : 185-196.

二级参考文献121

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
7孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

共引文献833

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：4
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
5战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
6张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
7张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
8隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
9王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
10徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20

同被引文献236

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
3何干俊.汉语音译词的多维考察[J].江西社会科学,2012,32(4):194-197. 被引量：4
4周明,林静怀,杨桂钟,任建文,李庚银.新型智能电网调度操作票自动生成与管理系统[J].电力系统自动化,2004,28(11):71-74. 被引量：56
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6张敏贵,潘泉,张洪才,姜睿.基于支持向量机的人脸分类[J].计算机工程,2004,30(11):110-112. 被引量：16
7钟义信.自然语言理解的全信息方法论[J].北京邮电大学学报,2004,27(4):1-12. 被引量：42
8张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
9陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

引证文献21

1毕明霞,黄汉明,边银菊,李锐,陈银燕,赵静.天然地震与人工爆破波形信号HHT特征提取和SVM识别研究[J].地球物理学进展,2011,26(4):1157-1164. 被引量：26
2任剑锋,梁雪,李淑红.基于非线性流形学习和支持向量机的文本分类算法[J].计算机科学,2012,39(1):261-263. 被引量：10
3徐远方,李成城.基于SVM和词间特征的新词识别研究[J].计算机技术与发展,2012,22(5):134-136. 被引量：4
4张鸿彦.基于CCIPCA-LSSVM的文本自动分类算法[J].科学技术与工程,2013,21(10):2704-2709.
5郑瑞娟,张仰森.基于概念的Web文本分类方法及实现[J].北京信息科技大学学报（自然科学版）,2013,28(2):77-81.
6徐楠楠,王东风,韩璞.基于正向最大匹配算法的电力两票安全识别[J].计算机仿真,2014,31(1):145-148. 被引量：8
7裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：14
8白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报（自然科学版）,2014,37(7):808-811. 被引量：4
9张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
10王平,吴剑.基于模糊加权近似支持向量机的Web文本分类[J].计算机应用与软件,2015,32(5):54-58. 被引量：2

二级引证文献136

1王晓霞,高翠珍,史双双,宫静芝,薛锦明.论爆破塌陷特殊地震动特征识别[J].西部资源,2022(6):120-122. 被引量：1
2赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
3陈永良,周斌,李学斌.基于Boltzmann机的矿产靶区预测[J].地球物理学进展,2012,27(1):179-185. 被引量：10
4蔡君,张淋辉.通向三代移动通信的桥梁：GPRS技术及其解决方案概览[J].互联网世界,2000(4):26-31.
5童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
6毕明霞,黄汉明,边银菊,周海军,陈银燕,赵静.基于经验模态分解的地震波特征提取的研究[J].地球物理学进展,2012,27(5):1890-1896. 被引量：15
7徐远方,李成城.基于支持向量机和约束条件的新词识别研究[J].计算机技术与发展,2014,24(1):98-101. 被引量：2
8范少萍,李迎迎,郑春厚.基于局部线性判别嵌入算法的中文文本分类研究[J].情报理论与实践,2014,37(2):131-135.
9张博,边银菊,王婷婷.用逐步代价最小决策法识别地震与爆破[J].地震学报,2014,36(2):233-243. 被引量：9
10杨格兰,金辉霞,孟令中,朱幸辉.基于图的半监督降维算法[J].计算机科学,2014,41(4):280-282. 被引量：2

1钟将,温罗生,冯永,叶春晓,李志国.基于近似支持向量机的Web文本分类研究[J].计算机科学,2008,35(3):167-169. 被引量：7
2阳庆,秦志远,周丽雅,杨安洪.近似支持向量机高光谱图像分类方法研究[J].海洋测绘,2009,29(5):44-47.
3程学云.PSVM多类分类及其应用[J].信息技术,2009,33(4):12-14. 被引量：1
4付纪刚.基于近似支持向量机的边缘检测[J].科协论坛（下半月）,2012(5):132-133.
5王平,吴剑.基于模糊加权近似支持向量机的Web文本分类[J].计算机应用与软件,2015,32(5):54-58. 被引量：2
6刘艳,钟萍,陈静,宋晓华,何云.用于处理不平衡样本的改进近似支持向量机新算法[J].计算机应用,2014,34(6):1618-1621. 被引量：6
7陶晓燕,姬红兵,董淑福.用于非平衡样本分类的近似支持向量机[J].模式识别与人工智能,2007,20(4):552-557. 被引量：1
8刘薇,徐凌,杨光.基于双树复小波二元统计模型的图像去噪方法[J].中国图象图形学报,2009,14(7):1291-1297. 被引量：6
9杜喆,刘三阳.最小二乘支持向量机变型算法研究[J].西安电子科技大学学报,2009,36(2):331-337. 被引量：6
10王旭坚,薛惠锋,解丹蕊.基于近似支持向量回归机的多属性决策[J].河北科技大学学报,2009,30(2):120-124.

计算机科学

2010年第1期

浏览历史

内容加载中请稍等...

基于自适应中文分词和近似SVM的文本分类算法被引量：21

参考文献16

二级参考文献121

共引文献833

同被引文献236

引证文献21

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

基于自适应中文分词和近似SVM的文本分类算法 被引量：21

参考文献16

二级参考文献121

共引文献833

同被引文献236

引证文献21

二级引证文献136

相关作者

相关机构

相关主题

浏览历史

基于自适应中文分词和近似SVM的文本分类算法被引量：21