一种短文本特征词提取的方法被引量：8

A SHORT TEXT FEATURE WORD EXTRACTION METHOD

下载PDF

导出

摘要针对短文本的特点,提出一种自动识别短文本特征词的方法。根据短文本中的名词或动词之间语义相似度构造图的邻接矩阵,在图的邻接矩阵基础上提出一种候选特征词的特征度计算方法,选择特征度较大的一些词作为特征词。实验结果表明,所提出的特征提取方法较传统的特征提取方法更适合短文本的分类。 In view of the characteristics of short text, the paper proposes a method to automatically recognize short text feature words. According to adjacent matrix of semantic similarity structural graph between nouns or verbs from short text, on the basis of graph＇ s adjacent matrix, the paper proposes a feature degree calculation method for candidate feature words, which selects words of greater feature degrees as feature words. Experiment results show that the proposed feature extraction method is more suitable for short text classification compared to traditional feature extraction methods.

作者程传鹏苏安婕

机构地区中原工学院计算机学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第6期162-164,212,共4页 Computer Applications and Software

基金河南省科技攻关计划项目(102102210509) 云南省科技计划项目(2011FZ074)

关键词短文本特征提取连接强度邻接矩阵特征度 Short text Feature extraction Adjacent strength Adjacent matrix Feature degree

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
2申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
3董振东.[EB/OL].知网http://www.keenage.com,1999.
4熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
5熊忠阳,蒋健,张玉芳.新的CDF文本分类特征提取方法[J].计算机应用,2009,29(7):1755-1757. 被引量：11
6裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
7赵军阳,张志利.基于最大互信息最大相关熵的特征选择方法[J].计算机应用研究,2009,26(1):233-235. 被引量：18
8刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程,2007,33(15):217-219. 被引量：8
9刘群,李素建.基于《知网》的词汇语义相似度的计算[C].台北:第三届汉语词汇语义学研讨会,2002.
10程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13

二级参考文献65

1陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
2唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
3徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
4申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
6黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
7LIU Huan, SETIONO R. A probabilistic approach to feature selection: a filter solution [ C ]//Proc of the 13th International Conf Machine Learning. 1996:319-327.
8HALL M A. Correlation-based feature selection for discrete and numeric class machine learning [ C ]//Proc of the 17th International Conf Machine Learning. 2000:359-366.
9PAWLAK Z. Rough sets:theoretical aspects of reasoning about data [ M ]. Boston : Kluwer Academic Publishers, 1991.
10JENSEN R, SHEN Qiang. Fuzzy-rough attribute reduction with application to Web categorization [ J ]. Fuzzy Sets and Systems, 2004, 141 (3) :469-485.

共引文献410

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5
6贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
7尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
8刘春艳.基于信息可视化的文本挖掘研究领域前沿与演化分析[J].图书情报工作,2011,55(S2):270-272. 被引量：5
9王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

同被引文献58

1和亚丽,陈立潮.Web文本挖掘中的特征选取方法研究[J].计算机工程,2005,31(5):181-182. 被引量：14
2温有奎,温浩,徐端颐,潘龙法.基于知识元语义网格平台的知识发现研究[J].计算机工程与应用,2006,42(4):4-6. 被引量：18
3文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
4耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
5程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
6化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
7刘群,李素建.基于《知网》的词汇语义相似度的计算[C].台北:第三届汉语词汇语义学研讨会,2002.
8Charikar M. Similarity estimation techniques from rounding al- gorithms[ C ]//Proc of 34th annual symposium on theory of computing. [ s. 1. ]:[ s. n. ] ,2002.
9Manku G S,Jain A,Sarma A D. Detecting near-duplicates for web crawling[ C ]//Proc of international world wide web con- ference. [ s. 1. ] : [ s. n. ] ,2007.
10Aminul Islam,Diana Inkpen.??Semantic text similarity using corpus-based word similarity and string similarity(J)ACM Transactions on Knowledge Discovery from Data (TKDD) . 2008 (2)

引证文献8

1王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
2黄贤英,陈红阳,刘英涛,熊李媛.一种新的微博短文本特征词选择算法[J].计算机工程与科学,2015,37(9):1761-1767. 被引量：17
3石雁,李朝锋.结合统计和词间关系的文本关键词计算方法[J].计算机技术与发展,2015,25(12):22-27.
4谭红叶,段庆龙,陈夏飞.面向中文阅读理解复杂选项分类研究[J].山西大学学报（自然科学版）,2017,40(1):78-83.
5武建光,苏云梅,于琦,贺培风.基于知识元的学术文献分类研究[J].情报理论与实践,2019,42(3):160-165. 被引量：8
6张群,王红军,王伦文.一种结合上下文语义的短文本聚类算法[J].计算机科学,2016,43(S2):443-446. 被引量：11
7周丽杰,于伟海,郭成.基于关键词协同投票过滤的短文本特征提取算法研究[J].泰山学院学报,2015,37(6):43-47. 被引量：2
8贾强,冯锡炜,王志峰,朱睿,秦航.基于改进的TF-IDF文本特征词提取算法研究[J].辽宁石油化工大学学报,2017,37(4):61-64. 被引量：8

二级引证文献46

1杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
2郑颖,金松林,张自阳,王斌,茹振钢.基于本体的小麦病虫害问答系统构建与实现[J].河南农业科学,2016,45(6):143-146. 被引量：6
3路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103. 被引量：3
4王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
5黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140. 被引量：13
6张焕成,林正奎.词向量提取评论观点句方法研究[J].西部皮革,2017,39(10):271-273.
7单世超,栾翠菊.基于局部特征选择的微博中文文本分类研究[J].现代计算机（中旬刊）,2017(8):11-16.
8马慧芳,朱志强,成玉丹,贾俊杰.基于核心词项平均划分相似度的短文本聚类算法[J].计算机工程与科学,2017,39(8):1562-1569.
9张迪,马慧芳,贾俊杰,余丽.一种基于标签概率相关性的微博推荐方法[J].计算机工程与科学,2017,39(9):1742-1748. 被引量：3
10陈红阳,汪林林,陈滢生,鲁江坤,左雪.特征词选择与相似度融合的微博话题发现方法[J].电信科学,2017,33(10):134-140.

1邓丹君,姚莉.基于改进TF-IDF的微博短文本特征词提取算法[J].软件导刊,2016,15(6):48-50. 被引量：7
2徐建民,刘清江,付婷婷,戴旭.基于量化同义词关系的改进特征词提取方法[J].河北大学学报（自然科学版）,2010,30(1):97-101. 被引量：5
3戴文华,焦翠珍,何婷婷.基于混合并行遗传聚类的文本特征抽取方法研究[J].计算机科学,2008,35(9):183-186. 被引量：1
4孙翔,潘廷勇,李祥秋,赵永超,崔曙光.基于规范文本的特征词提取技术研究[J].科技创新与生产力,2012(3):61-63.
5富宇,石金叶.基于语义的文本资源分类[J].计算机系统应用,2016,25(8):246-249. 被引量：1
6尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
7胥桂仙,高旭,于绍娜.关联规则算法在中文文本挖掘中的应用研究[J].中央民族大学学报（自然科学版）,2004,13(4):332-338. 被引量：5
8王红玲,郑纲.改进的贝叶斯算法在垃圾邮件过滤中的应用[J].信息通信,2013,26(9):85-86. 被引量：1
9侯艳钗,沈西挺.文本分类中基于改进的词语权重算法的研究[J].微计算机信息,2011,27(6):211-213. 被引量：1
10张鹏,朱征宇,李存青,曾丽芳,陈烨,徐凯,常红要.意见挖掘中产品特征的层次提取方法[J].微处理机,2010,31(5):81-85.

计算机应用与软件

2014年第6期

浏览历史

内容加载中请稍等...

一种短文本特征词提取的方法被引量：8

参考文献10

二级参考文献65

共引文献410

同被引文献58

引证文献8

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

一种短文本特征词提取的方法 被引量：8

参考文献10

二级参考文献65

共引文献410

同被引文献58

引证文献8

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

一种短文本特征词提取的方法被引量：8