基于语义的文档特征提取研究方法被引量：10

Semantic-based Feature Extraction Method for Document

下载PDF

导出

摘要中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。 Feature extraction of Chinese documents is an important part in the document processing,and imposes great influence on the document classification.Pre-existing document feature extraction methods have many shortcomings,such as creating a feature vector of high dimensions,depending on training sets,ignoring low-frequency keywords,and so on.In this paper,the semantic distance between words was calculated based on the synonyms dictionary,and then theme related words of each classification were selected by the density clustering method,and finally the feature words were selected from the theme related words using the information gain algorithm.In order to validate the proposed method,one validation experiment and one comparison experiment were designed and the evaluation indexes including the macro-F value and the micro-F value were calculated.Experiment results show that the proposed document feature extraction method has better performance than other traditional algorithms.

作者姜芳李国和岳翔

机构地区中国石油大学(北京)地球物理与信息工程学院中国石油大学(北京)油气数据挖掘北京市重点实验室中海油研究总院信息数据中心

出处《计算机科学》 CSCD 北大核心 2016年第2期254-258,共5页 Computer Science

基金国家高新技术研究发展计划(2009AA062802) 国家自然科学基金(60473125) 中国石油(CNPC)石油科技中青年创新基金(05E7013) 国家重大专项子课题(G5800-08-ZS-WX)资助

关键词特征词语义距离信息增益文本分类 Feature word Semantic distance Information gain Text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
2张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
3任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
4郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28
5唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
6周海芳,杜云飞,杨学军,李思昆.基于互信息的遥感图像区域配准并行算法的研究与实现[J].中国图象图形学报,2010,15(1):174-180. 被引量：15
7熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
8毛小丽,何中市,邢欣来,刘莉.基于特征选择的实体关系抽取[J].计算机应用研究,2012,29(2):530-532. 被引量：9
9刘凤晨,刘庆文,胡玥,黄河.n-Gram/2L索引结构的存储与时间优化算法[J].计算机工程与应用,2008,44(5):180-183. 被引量：2
10刘端阳,王良芳.结合语义扩展度和词汇链的关键词提取算法[J].计算机科学,2013,40(12):264-269. 被引量：19

二级参考文献136

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
8龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
9周晓飞,杨静宇,姜文瀚.核最近邻凸包分类算法[J].中国图象图形学报,2007,12(7):1209-1213. 被引量：6
10Yang Yiming,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proc of the 14th International Conference on Machine Learning ICML97,1997:412-420.

共引文献309

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5张继超,刘宁,宋伟东,李建飞.一种特征选择的全极化雷达影像分类方法[J].测绘科学,2022,47(6):127-134. 被引量：3
6黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5
7LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
8任珂,蔡明,李亚平.基于概率密度距离的无监督特征选择方法[J].计算机工程与设计,2007,28(19):4734-4737. 被引量：1
9王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
10刘雪燕,李明,张亚芬.基于PCA和多约简SVM的多级说话人辨识[J].计算机应用,2008,28(1):127-130. 被引量：4

同被引文献119

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：13
3张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
5李洋.K-means聚类算法在入侵检测中的应用[J].计算机工程,2007,33(14):154-156. 被引量：23
6张雅杰,张俊玲,杨洋,刘胜华,贾丽.层次聚类分析法在连州市土地利用分区中的应用[J].国土资源科技管理,2007,24(5):71-76. 被引量：25
7孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
8唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
9吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
10陈立潮,聂跃光,李静,姜燕.DBSCAN算法在公路选线中的应用[J].计算机应用,2008,28(B06):324-326. 被引量：3

引证文献10

1李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
2林志宏,池宏,许保光.基于卷积神经网络的公安案件文本语义特征提取方法研究[J].数学的实践与认识,2017,47(17):127-140. 被引量：4
3胡广耀.基于模糊理论的英语机器翻译语义调序研究[J].现代电子技术,2017,40(21):121-123. 被引量：1
4陈红阳,汪林林,陈滢生,鲁江坤,左雪.特征词选择与相似度融合的微博话题发现方法[J].电信科学,2017,33(10):134-140.
5高佳锋,师智斌.大规模不完整信息特征提取仿真研究[J].计算机仿真,2018,35(1):357-360. 被引量：2
6何喜军,马珊,武玉英.基于本体和SAO结构的线上技术供需信息语义匹配研究[J].情报科学,2018,36(11):95-100. 被引量：18
7蔡柳萍,解辉,张福泉,张龙飞.基于稀疏表示和特征加权的大数据挖掘方法的研究[J].计算机科学,2018,45(11):256-260. 被引量：15
8王鑫芸,王昊,邓三鸿,张宝隆.面向期刊选择的学术论文内容分类研究[J].数据分析与知识发现,2020,4(7):96-109. 被引量：10
9周倩,姜磊,程旅航,陈焱,陈艳红.情感倾向驱动的旅游酒店大数据网络舆情[J].湖南科技大学学报（自然科学版）,2020,35(4):67-73. 被引量：4
10宋燕燕.面向传媒领域文本分类训练器的设计[J].科学家,2016,0(12):32-33.

二级引证文献57

1江华.浅谈Windows98的桌面[J].电脑编程技巧与维护,2000(5):30-31.
2张琛.机器英语翻译中的模糊语义最优解选取方法[J].英语广场（学术研究）,2018,0(12):43-44.
3张伟,池宏,林志宏.大数据背景下基于过滤式-包裹式方法的高危人员风险预警[J].科技促进发展,2018,14(8):742-749.
4李清炀.通信网络不可信任数据特征快速提取仿真[J].计算机仿真,2019,36(3):352-355.
5王倩倩,陈康.在线评论文本特征表示方法研究[J].金陵科技学院学报（社会科学版）,2019,33(1):56-60. 被引量：1
6何喜军,马珊,武玉英,蒋国瑞.多特征融合下在线技术转移平台供需匹配研究——以京津冀区域数据为例[J].情报杂志,2019,38(6):174-181. 被引量：8
7姚俊良,乐小虬.科技查新查新点语义匹配方法研究[J].数据分析与知识发现,2019,3(6):50-56. 被引量：5
8侯乔,陈宏伟.基于多策略改进蝙蝠算法的文本特征选择[J].湖北工业大学学报,2019,34(5):64-66.
9刘璐,余文斌,李欣桐,赵毅,何喜军.京津冀协同发展政策与文献的语义匹配度研究[J].中国市场,2019,0(35):29-32. 被引量：2
10王哲,徐燕文.基于关联分析的异常信息属性特征提取仿真[J].计算机仿真,2019,36(12):406-410.

1李开荣,林颖,杭月芹.基于语义模型的文档特征提取[J].计算机工程与应用,2005,41(17):173-176. 被引量：2
2李国栋,李卫.基于文本分类技术的垃圾邮件识别系统[J].微电子学与计算机,2004,21(6):145-146. 被引量：10
3夏克俭,张涛.基于贝叶斯算法的垃圾邮件过滤的研究[J].微计算机信息,2008,24(9):179-180. 被引量：5
4李正兵,罗斌,翟素兰,涂铮铮.基于关联图划分的Kmeans算法[J].计算机工程与应用,2013,49(21):141-144. 被引量：14
5韩立毛,鞠时光,羊晶璟.个性化搜索引擎中网页特征描述的研究[J].计算机工程与应用,2011,47(11):94-97. 被引量：2
6郑志蕴,江国林,张行进,王振飞,李钝.基于多特征的热门微博预测算法研究[J].小型微型计算机系统,2017,38(3):494-498. 被引量：12
7廖忠民,崔斌.Pro/TOOLKIT中模型树的快速创建[J].机械,2004,31(5):46-47. 被引量：2
8张明,王艳,李强.浅谈靶场数据挖掘中流数据的特征提取方法[J].通讯世界,2017,23(3):247-248. 被引量：1
9郭瑾.一种安全网关智能生成特征的方法[J].电脑编程技巧与维护,2016(22):72-75.
10任津京.基于HOG特征的人体检测及OpenCV实现[J].科技致富向导,2015,0(14):184-185.

计算机科学

2016年第2期

浏览历史

内容加载中请稍等...

基于语义的文档特征提取研究方法被引量：10

参考文献14

二级参考文献136

共引文献309

同被引文献119

引证文献10

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于语义的文档特征提取研究方法 被引量：10

参考文献14

二级参考文献136

共引文献309

同被引文献119

引证文献10

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于语义的文档特征提取研究方法被引量：10