-
题名基于X^2统计的改进文本特征选择方法
被引量:8
- 1
-
-
作者
闫健卓
李鹏英
方丽英
龙丽英
刘欣悦
-
机构
北京工业大学电控学院
-
出处
《计算机工程与设计》
北大核心
2016年第5期1391-1394,共4页
-
基金
国家自然科学基金项目(61174109)
北京市委组织部优秀人才培养计划基金项目(2010D005015000001)
-
文摘
为克服传统X^2统计模型未考虑特征词频数因素不足的缺陷,根据特征项的词频数及其在类间、类内不同分布情况,提出一种改进的X^2统计特征选择方法,使特征频数信息得到有效利用。实验对比改进前后的方法对文本分类的结果,实验结果表明,改进后方法的分类效果优于传统X^2统计方法,验证了其有效性。
-
关键词
文本分类
特征选择
x2统计
特征频数
特征分布
-
Keywords
text categorization
feature selection
x2 statistics model
frequency
distribution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的X^2统计量方法
被引量:1
- 2
-
-
作者
程传鹏
-
机构
中原工学院
-
出处
《中原工学院学报》
CAS
2010年第6期73-75,共3页
-
文摘
对文本特征提取中的统计量方法进行了介绍,并且指出了该方法在分类中的不足之处;在此基础上,提出了一种改进的特征选择方法,并把该方法应用到后续的文本分类中.分类实验结果表明,分类准确率得到了一定的提高.
-
关键词
文本分类
特征提取
x2统计量
-
Keywords
web page classification
feature selection
x2 statistics
-
分类号
TN391.07
[电子电信—物理电子学]
-
-
题名认知诊断模型-资料拟合检验统计量及其性能
被引量:5
- 3
-
-
作者
涂冬波
张心
蔡艳
戴海琦
-
机构
江西师范大学心理学院
-
出处
《心理科学》
CSSCI
CSCD
北大核心
2014年第1期205-211,共7页
-
基金
国家自然科学基金(编号:31100756
31300876
+7 种基金
31160203
3136 0237)
教育部人文社科项目(编号:11YJC190002)
高等院校博士点基金项目(编号:20103604120001)
江西省社会科学规划重点项目(编号:13JY01)
江西省教育科学规划项目(编号:12YB088
13YB029)
江西师范大学青年英才培育资助计划等课题的资助
-
文摘
本文将IRT常用资料-模型拟合检验统计量χ2和G2引入认知诊断领域,具体讨论了这两个统计量在认知诊断资料-模型拟合检验的可行性及其侦查效果,为研究者及实际应用者在认知诊断资料模型拟合检验中提供借鉴及方法学支持。
-
关键词
认知诊断
资料-模型拟合检验
x2统计量
G2伊统计量
-
Keywords
cognitive diagnosis, goodness-of-fit test, x2 statistics, G2 statistics
-
分类号
B842
[哲学宗教—基础心理学]
-
-
题名数值天气预报时效统计检验方法的研究与应用
- 4
-
-
作者
李德明
张隐君
-
机构
黑龙江省农垦科学院
-
出处
《黑龙江气象》
2020年第2期26-28,共3页
-
文摘
本文采用X2统计检验方法,对3000多组降水预报和实况数据进行了统计分析,求算了两个部门所做的数值天气预报的时效。结果如下:中国气象局在气象网上发布的数值天气预报时效为7.0 d,达到国际先进水平;XX公司发布的数值天气预报时效为2.0-4.5 d,预报水平落后于中国气象局12-17 a。
-
关键词
数值天气预报
时效
x2统计检验
-
分类号
P456.7
[天文地球—大气科学及气象学]
-
-
题名用于不完整数据的选择性贝叶斯分类器
被引量:11
- 5
-
-
作者
陈景年
黄厚宽
田凤占
付树军
-
机构
北京交通大学计算机与信息技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第8期1324-1330,共7页
-
基金
国家自然科学基金项目(60503017
60673089)
-
文摘
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些.
-
关键词
贝叶斯方法
分类
特征选择
不完整数据
x2统计量
-
Keywords
Bayesian method
classification
feature selection
incomplete data
chi-squared statistics
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于特征选择的实体关系抽取
被引量:9
- 6
-
-
作者
毛小丽
何中市
邢欣来
刘莉
-
机构
重庆大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2012年第2期530-532,共3页
-
基金
中央高校基本科研业务费科研专项资助项目(CDJXS11180020)
国家科技重大专项项目(2008ZX07315-001)
-
文摘
提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。
-
关键词
关系抽取
特征选择
信息增益
期望交叉熵
x2统计
-
Keywords
relation extraction
feature selection
information gain
expected cross entropy
x2 statistic
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于交叉覆盖算法的文本分类
被引量:5
- 7
-
-
作者
王倩倩
段震
张燕平
-
机构
安徽大学计算智能与信号处理重点实验室
-
出处
《计算机技术与发展》
2007年第6期113-115,共3页
-
基金
"九七三"计划国家重点基础研究(2004CB318108)
国家自然科学基金(60475017
+1 种基金
60135010)
安徽省自然科学基金(050420208)
-
文摘
分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。
-
关键词
文本分类
x2统计量
交叉覆盖算法
-
Keywords
text classification
x^2 statistic
cross cover algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名文本分类中特征提取方法的比较改进
被引量:1
- 8
-
-
作者
王娟
-
机构
兰州理工大学计算机与通信学院
兰州工业学院软件工程学院
-
出处
《兰州工业学院学报》
2013年第5期22-24,共3页
-
文摘
介绍了IG(Information gain)信息增益,MI(Mutual information)互信息值,CHI(χ2统计法)、DF(Document frequency)文档频率4种常用的文本特征提取方法,然后针对CHI方法提出了改进方法,并对改进的方法进行了实验分析,结果表明改进的方法提高了文本分类的正确率.
-
关键词
文本分类
特征提取
x2统计量
-
Keywords
text categorization
feature selection
statistical magnitude
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名应用谱直方图相似性的纹理图像分割研究
被引量:1
- 9
-
-
作者
那婕
何继淳
杨莹
-
机构
辽宁师范大学计算机与信息技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第14期192-195,共4页
-
基金
辽宁省教育厅高等学校攻关计划科研基金资助项目No.202123195~~
-
文摘
提出基于谱直图相似性的纹理图像分割算法,在提出的纹理分割算法中,无需选择种子点。首先通过使用一组滤波器来获取纹理图像的纹理特征,基于空域/频域的表示方法,使用谱直方图作为特征统计,然后利用x2统计特征度量谱直方图之间的相似性,得到初始分割,然后基于形态学骨架化的原理,对区域边界进行精确定位,得到最终的分割结果。实验结果验证了算法的有效性。
-
关键词
谱直方图
特征提取
x2统计特征
骨架化
形态学
纹理分割
-
Keywords
spectral histograms
feature extraction
x2-statistic
skeletonization
morphology
texture segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名文本分类中基于改进的词语权重算法的研究
被引量:1
- 10
-
-
作者
侯艳钗
沈西挺
-
机构
河北工业大学计算机科学与软件学院
-
出处
《微计算机信息》
2011年第6期211-213,共3页
-
文摘
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。
-
关键词
中文文本
特征项
x2统计量
-
Keywords
Chinese text
feature items
x2 statistic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-