基于相关性及语义的n-grams特征加权算法被引量：2

n-grams Features Weighting Algorithm Based on Relevance and Semantic

下载PDF

导出

摘要 n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生. When n-grams are considered as text classification features, the classification accuracy is decreased. The redundancy and relevance between words are ignored while n-grams are weighted. Thus, n-grams features weighting algorithm based on relevance and semantic is proposed. To decrease the internal redundancy, feature reduction is conducted to n-grams during text preprocessing. Then, n-grams are weighted according to the relevance of words and classes in n-grams and the semantic similarity of n-grams and testing dataset. The experimental results on Sougo Chinese news corpse and NetEase text corpse show that the proposed algorithm can select n-grams features of high relevance and low redundancy, and reduce the sparse data while quantifying the testing dataset.

作者邱云飞刘世兴林明明邵良杉

机构地区辽宁工程技术大学软件学院辽宁工程技术大学系统工程研究所

出处《模式识别与人工智能》 EI CSCD 北大核心 2015年第11期992-1001,共10页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.70971059) 辽宁省创新团队项目(No.2009T045) 辽宁省高等学校杰出青年学者成长计划项目(No.LJQ2012027)资助

关键词最大相关度最小冗余度(mRMR) 语义相似度 N-GRAMS 特征加权 Maximum Relevance Minimum Redundancy （mRMR）, Semantic Similarity, n-grams,Feature Weighting

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
2朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58
3周水庚,关佶红,胡运发,周傲英.一个无需词典支持和切词处理的中文文档分类系统[J].计算机研究与发展,2001,38(7):839-844. 被引量：23
4Zachary Miller,Brian Dickinson,Wei Hu.Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features[J].International Journal of Intelligence Science,2012,2(4):143-148. 被引量：10

二级参考文献22

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
3荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
4李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
5赵伯璋徐力.计算机中文信息处理（下册）[M].北京:宇航出版社,1988..
6周水庚.中文文本数据库的若干关键技术研究：博士论文[M].上海：复旦大学,2000..
7Han J W,Kamber M.数据挖掘:概念与技术[M].范明,孟小峰,译.2版.北京:机械工业出版社,2007:251-301.
8赵伯璋，计算机中文信息处理.下，1988年
9周水庚，博士论文，2000年
10邹淘，中文信息学报，1999年，13卷，3期，26页

共引文献99

1刘雅琦,李得志,王瑞雪.中文社交媒体用户性别预测研究——以新浪微博短文本内容为例[J].知识管理论坛,2021(4):213-227.
2刘世兴.基于多尺度的n-grams特征选择加权及匹配算法[J].智能计算机与应用,2020,0(1):61-66. 被引量：1
3李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
4宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
5刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
6李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].厦门大学学报（自然科学版）,2005,44(B06):239-242. 被引量：3
7庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
8陈晓云,陈袆,王雷,李荣陆,胡运发.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):1017-1025. 被引量：19
9陈思睿,张永,杨志勇.基于粗糙集的特征选择方法的研究[J].计算机工程与应用,2006,42(21):159-161. 被引量：7
10陈晓云,李荣陆,胡运发.基于最小词频阈值的文档特征选择[J].模式识别与人工智能,2006,19(4):531-537. 被引量：7

同被引文献20

1李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
2周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
3肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5曹建军,刁兴春,杜鹢,王芳潇,张潇毅.基于蚁群特征选择的相似重复记录分类检测[J].兵工学报,2010,31(9):1222-1227. 被引量：8
6丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：913
7王维,张鹏涛,谭营,何新贵.一种基于人工免疫和代码相关性的计算机病毒特征提取方法[J].计算机学报,2011,34(2):204-215. 被引量：26
8周典瑞,周莲英.海量数据的相似重复记录检测算法[J].计算机应用,2013,33(8):2208-2211. 被引量：11
9张涛,张瀚,付垒朋.基于模糊模式与决策树融合的脚本病毒检测算法[J].电子与信息学报,2014,36(1):108-113. 被引量：7
10郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293-295. 被引量：7

引证文献2

1郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
2黄学强.基于网络行为分析的木马病毒检测算法[J].信息技术,2019,43(12):86-90. 被引量：2

二级引证文献5

1马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
2陶姿邑.基于深度学习的数据库重复记录检测算法[J].微型电脑应用,2020,36(12):174-176. 被引量：2
3柳俊伟.加密币恶意“挖矿”:行为机理、解构及罪罚[J].黑龙江省政法管理干部学院学报,2022(6):37-41. 被引量：1
4代丽伟.基于GCN-BiLSTM的动态网络异常行为检测[J].信息技术与信息化,2023(4):67-70. 被引量：1
5欧萍,张子砚.大规模船舶数据库重复记录的智能优化算法[J].舰船科学技术,2019,41(2):184-186. 被引量：3

1王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：9
2邱云飞,刘世兴,邵良杉.基于字矩阵交运算的n-grams特征选择加权算法[J].计算机工程与应用,2016,52(22):86-92. 被引量：1
3张金美,舒希勇.基于基尼系数的n-grams特征约简加权算法[J].淮阴工学院学报,2016,25(1):25-28.
4马文龙,余宁梅,银磊,高勇.图像块动态划分矢量量化[J].计算机辅助设计与图形学学报,2005,17(2):279-283. 被引量：10
5李士进,陶剑,林林,冯钧.面向宏观地表分类的特征选择算法比较研究[J].计算机工程与应用,2008,44(21):130-132. 被引量：1
6邱云飞,刘世兴,魏海超,邵良杉.W-POS语言模型及其选择与匹配算法[J].计算机应用,2015,35(8):2210-2214. 被引量：3
7陈素萍,谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009,19(2):112-115. 被引量：6
8胡学钢,许尧,李培培,张玉红.一种过滤式多标签特征选择算法[J].南京大学学报（自然科学版）,2015,51(4):723-730. 被引量：8
9詹永照,谢志峰,毛启容.协同学习环境中感知本体的构建方法[J].江苏大学学报（自然科学版）,2007,28(2):164-167. 被引量：4
10张羚,陆余良,杨国正.基于词频类别相关的特征权重算法[J].计算机应用研究,2017,34(2):386-391. 被引量：6

模式识别与人工智能

2015年第11期

浏览历史

内容加载中请稍等...

基于相关性及语义的n-grams特征加权算法被引量：2

参考文献4

二级参考文献22

共引文献99

同被引文献20

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于相关性及语义的n-grams特征加权算法 被引量：2

参考文献4

二级参考文献22

共引文献99

同被引文献20

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于相关性及语义的n-grams特征加权算法被引量：2