-
题名Web文本特征选择算法的研究
被引量:8
- 1
-
-
作者
冯长远
普杰信
-
机构
河南科技大学电子信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2005年第7期36-38,59,共4页
-
基金
国家教育部科研基金重点项目(200305)
河南省自然科学基金资助项目(0311012600)
-
文摘
以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。
-
关键词
文本表示
向量空间模型
特征选择
熵
-
Keywords
text Represents
Vector Space Model
feather Selection
Entropy
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名文本分类中特征提取方法的比较与研究
被引量:10
- 2
-
-
作者
郑伟
王锐
-
机构
河北北方学院理学院物理系
河北北方学院理学院计算机系
-
出处
《河北北方学院学报(自然科学版)》
2007年第6期51-54,64,共5页
-
文摘
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.
-
关键词
文本分类
互信息
信息增益
SVM
特征提取
-
Keywords
text categorization
Mutual Information
Information Gain
SVM
feather selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名WEB文本分类技术在企业竞争情报分析中的应用
被引量:8
- 3
-
-
作者
薛燕波
-
机构
南京大学信息管理系
-
出处
《情报科学》
CSSCI
北大核心
2004年第3期378-380,384,共4页
-
文摘
笔者在实际竞争情报工作过程中发现了现有竞争情报工作中存在的问题——竞争情报的搜集和分析主要依靠人工来完成 ,效率低下 ;针对这一问题 ,本文提出了把 web文本分类技术应用到企业竞争情报搜集和分析中去 。
-
关键词
WEB文本
分类技术
企业竞争
竞争情报分析
情报搜集
文档特征提取
情报源
-
Keywords
Competitive intelligence WEB text classification feather selection
-
分类号
G353.1
[文化科学—情报学]
F270
[经济管理—企业管理]
-
-
题名基于改进词性信息和ACBiLSTM的短文本分类
被引量:5
- 4
-
-
作者
朱向其
张忠林
李林川
马海云
-
机构
兰州交通大学电子与信息工程学院
天水师范学院电子信息与电气工程学院
-
出处
《计算机应用与软件》
北大核心
2021年第12期179-186,共8页
-
基金
国家自然科学基金项目(61662043)
甘肃省自然科学基金项目(18JR3RE245)。
-
文摘
中文短文本分类最重要的是提取和表示短文本特征,传统的表示方法静态训练词向量,存在特征稀疏、语义不足等问题,对此提出一种基于改进词性信息和ACBiLSTM的中文短文本分类模型。用BERT模型动态训练词向量,引入词性因子优化,将得到的具有词性信息的词向量作为输入层信息;经过卷积神经网络初步提取局部特征,通过双向长短时记忆网络进一步得到具有上下文时序信息的中间向量表示;结合注意力机制,突显关键信息,获得最终文本特征表示。在FudanNews、SougouNews及THUCNews数据集上将该模型与其他模型进行对比,实验结果表明,其准确率和F1值显著提高。
-
关键词
短文本
BERT
神经网络
文本特征
注意力机制
文本分类
-
Keywords
Short text
BERT
Neural network
text feather
Attention mechanism
text classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名文本分类中特征选择方法的研究与比较
- 5
-
-
作者
王喆
-
机构
内蒙古化工职业学院
-
出处
《内蒙古石油化工》
CAS
2011年第19期18-20,共3页
-
文摘
介绍了进行文本分类的关键技术,并着重介绍了常用的文本特征提取方法。选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(W ET)为两种性能优异的特征提取方法。该结论可为分类性能进一步的优化研究奠定理论和实践基础。
-
关键词
文本分类
互信息
信息增益
SVM
特征提取
-
Keywords
text Categorization
Mutual Information
Information Gain
SVM
feather Selection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-