期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于改进卡方统计量的藏文文本表示方法 被引量:4
1
作者 徐涛 于洪志 加羊吉 《计算机工程》 CAS CSCD 2014年第6期185-189,共5页
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文... 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 展开更多
关键词 藏文信息处理 改进卡方统计量 文本表示 自动断句 空间模型
下载PDF
基于卡方统计量的属性约简新方法 被引量:2
2
作者 魏立力 韩崇昭 《计算机仿真》 CSCD 2007年第5期72-74,106,共4页
近年来粗糙集数据分析已经成为定性数据分析的一个常用方法,而信息系统的属性约简是粗糙集理论的一个基本问题。粗糙集方法虽然不需要数据之外的其它信息,但所得结果同时也缺乏统计证据。文中运用非参数统计的思想研究了信息系统的属性... 近年来粗糙集数据分析已经成为定性数据分析的一个常用方法,而信息系统的属性约简是粗糙集理论的一个基本问题。粗糙集方法虽然不需要数据之外的其它信息,但所得结果同时也缺乏统计证据。文中运用非参数统计的思想研究了信息系统的属性约简问题,首先将原始信息系统整理成任意两个属性子集之间的列联表,然后给出了基于卡方统计量的属性相关性的一个新度量,基于此度量给出了信息系统属性约简的新方法。数值例子说明了该方法的可行性和有效性。 展开更多
关键词 粗糙集 卡方统计量 属性约简
下载PDF
基于卡方统计量的藏文新闻网页关键词提取方法 被引量:3
3
作者 徐涛 蓝传锜 《电脑知识与技术(过刊)》 2017年第9X期171-173,共3页
藏文文本关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的藏文新闻网页几乎没有提供关键词。并且许多已有的关键词自动提取算法都需要建立在人工标注的训练集之上,扩展性不强。关键词是文本中主题关... 藏文文本关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的藏文新闻网页几乎没有提供关键词。并且许多已有的关键词自动提取算法都需要建立在人工标注的训练集之上,扩展性不强。关键词是文本中主题关联度凝聚度较高的词,因此该文将卡方统计量进行改进,运用词与词推荐的思想进行关键词抽取。通过藏文新闻网页实验结果表明,该文的方法优于融入位置信息的TF/IDF。 展开更多
关键词 藏文信息处理 卡方统计量 关键词抽取
下载PDF
基于卡方统计量的非参数轮廓变点识别研究
4
作者 聂斌 张赵英 《机械设计与制造工程》 2017年第5期9-12,共4页
为了研究轮廓监控中的变点识别问题,以非参数轮廓数据为研究对象,对单变点问题进行了研究。首先计算出所有轮廓线的卡方统计值,再运用多元T2统计量,将统计量值最大值作为样本变异的广义似然比检验统计量,据此来找到轮廓线的变点。通过... 为了研究轮廓监控中的变点识别问题,以非参数轮廓数据为研究对象,对单变点问题进行了研究。首先计算出所有轮廓线的卡方统计值,再运用多元T2统计量,将统计量值最大值作为样本变异的广义似然比检验统计量,据此来找到轮廓线的变点。通过大量仿真与论证表明所提出的方法在识别变点位置和稳定性方面具有优异的性能。将该方法应用于京津冀地区空气质量指数的变点识别,识别结果可以很好地解释京津冀地区空气质量指数的时间特征。 展开更多
关键词 非参数轮廓 单变点识别 卡方统计量 空气质数据
下载PDF
基于混合卡方统计量与逻辑回归的文本情感分析 被引量:19
5
作者 李平 戴月明 王艳 《计算机工程》 CAS CSCD 北大核心 2017年第12期192-196,202,共6页
针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从... 针对文本情感分析中基于卡方统计量的特征提取方法容易忽略单个文本词频,导致文本分类准确率较低的问题,提出一种基于混合卡方统计量的特征提取方法。通过增加特征频率、逆文档频率和负相关性指标,选出集中在某个特定类别中的特征词,从而减少特征负相关性的干扰。采用基于随机梯度下降的逻辑回归方法进行文本情感分类,并利用模拟退火原理自适应选择步长,解决随机梯度下降算法中步长难以确定的问题。实验结果表明,与基于卡方统计量的特征提取方法相比,该方法具有更高的文本情感分类质量。 展开更多
关键词 卡方统计量 特征提取 负相关性 随机梯度下降 逻辑回归 情感分类
下载PDF
实验室比对数据处理中卡方统计量研究 被引量:5
6
作者 杭晨哲 徐定华 原遵东 《计量科学与技术》 2021年第5期108-114,共7页
卡方统计量是实验室比对数据处理的关键统计分析工具,可用于比对数据的一致性核验和参考值不确定度的估计。本研究在比对量具有相同期望及比对数据服从正态分布的条件下,提出了一种包含一般线性估计的卡方统计量,研究了该统计量的性质... 卡方统计量是实验室比对数据处理的关键统计分析工具,可用于比对数据的一致性核验和参考值不确定度的估计。本研究在比对量具有相同期望及比对数据服从正态分布的条件下,提出了一种包含一般线性估计的卡方统计量,研究了该统计量的性质及分布。该统计量可以实现一般线性参考值估计的一致性检验和不确定度估计,为更广泛的线性参考值估计提供统计工具,可用于比对数据分析或多实验室定值测量。作为示例,针对算术平均值使用传统卡方检验需基于各实验室宣称相同不确定度的局限,对任意不确定度组合下的算术平均值给出卡方统计量,为这种常用线性参考值估计的扩展应用提供了新统计分析方法。 展开更多
关键词 实验室比对 参考值估计 卡方统计量 一般模型 随机影响模型 蒙特洛模拟
原文传递
基于改进卡方统计的微博特征提取方法 被引量:14
7
作者 徐明 高翔 +1 位作者 许志刚 刘磊 《计算机工程与应用》 CSCD 2014年第19期113-117,142,共6页
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量... 通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果。对上述方法利用经典KNN和SVM算法进行了测试,实验结果表明该方法提高了微博信息分类的准确率。 展开更多
关键词 微博分类 卡方统计量 特征选择 权值计算
下载PDF
基于单核苷酸多态性筛选的品种鉴定方法
8
作者 郭美萍 古万荣 +3 位作者 谢先荣 毛宜军 陈墩金 熊懿 《计算机应用》 CSCD 北大核心 2024年第S01期369-373,共5页
针对基因序列数据集中的高维小样本和样本不平衡问题,提出基于单核苷酸多态性筛选的品种鉴定方法。首先,利用改进的卡方统计量对预处理后的基因序列数据进行卡方值的计算,通过比较卡方值的大小筛选出单核苷酸多态性(SNP)位点;其次,使用... 针对基因序列数据集中的高维小样本和样本不平衡问题,提出基于单核苷酸多态性筛选的品种鉴定方法。首先,利用改进的卡方统计量对预处理后的基因序列数据进行卡方值的计算,通过比较卡方值的大小筛选出单核苷酸多态性(SNP)位点;其次,使用变体的过采样技术Variant-SMOTE(Variant Synthetic Minority Over-sampling TEchnique)平衡样本,以所有类别中的最大样本数量为基准,将剩余的其他少数类样本扩充至基准量,再将得到的矩阵输入K近邻(KNN)训练模型;最后,将该模型应用于10个水稻亚种的基因序列数据中迭代10次,取最高、最低的一组数据和平均值与2020-2023年提出的6种方法进行对比实验。实验结果表明,所提模型可以有效地选取出重要度排名前1%的位点作为SNP位点,即可以有效地从3139562个位点中选出31396个高信息量位点用于品种鉴定,鉴定的准确率达到了85.21%。相较于2020-2023年提出的6种方法,所提模型在水稻亚种鉴定中具有最好的鉴定效果,准确率比最低的方法chi-square+random forest提高了120%,比最高的方法chisquare+SMOTE+KNN和ReliefF+SVM提高了11.01%。所提方法虽然较对比方法更耗时,但在保留高信息量SNP的基础上减少了用于品种鉴定的位点数,降低了品种鉴定的成本。 展开更多
关键词 卡方统计量 过采样 特征选择 品种鉴定 K近邻
下载PDF
基于方差的CHI特征选择方法 被引量:30
9
作者 邱云飞 王威 +1 位作者 刘大有 邵良杉 《计算机应用研究》 CSCD 北大核心 2012年第4期1304-1306,共3页
通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法... 通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法,基于方差的卡方统计(Var-CHI)方法使得查全率和查准率都得到了明显的提高。 展开更多
关键词 文本分类 特征选择 卡方统计量
下载PDF
基于二进制烟花算法的特征选择方法 被引量:5
10
作者 路永和 陈泳珊 《情报学报》 CSSCI CSCD 北大核心 2017年第3期249-259,共11页
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设... 文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。 展开更多
关键词 词文本分类 特征选择 二进制烟花算法 信息增益 卡方统计量
下载PDF
中文文本分类中基于和声搜索算法的特征选择方法 被引量:5
11
作者 路永和 张宇楠 《情报学报》 CSSCI 北大核心 2015年第11期1203-1213,共11页
特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因... 特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因此,本文在传统特征选择方法的基础上提出一种新的特征选择方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用和声搜索算法以二进制编码形式对预选特征进行优选,选择与否分别编码为1和0。与此同时,以分类准确率作为个体的适应度,在和声库的初始化中设定一个前半解分量为1、后半解分量为0的初始解向量,以此提高初始和声库中解的适应度。使用搜狗语料库、复旦语料库、中山大学资讯管理学院智能信息处理实验室提供的语料库,每个语料库提取的训练文本和测试文本分别为1800篇和900篇。分别使用KNN、朴素贝叶斯、SVM分类器在预选维数为300维、600维、1200维中进行实验。结果表明,对比传统的特征选择方法,采用二进制和声搜索算法进行特征优选后,其分类准确率均得到提高。 展开更多
关键词 文本分类 特征选择 二进制和声搜索 算法信息 增益卡方统计量
下载PDF
用于连续属性离散化的RSE-Chi2方法 被引量:2
12
作者 束志恒 陈德钊 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2005年第6期849-852,共4页
为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描... 为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描述长度原理的决策系统信息熵作为离散化过程的评价函数,并由属性断点平均重要性确定多连续属性的离散化顺序,构建了自动的离散化方法RSEChi2.实例测试表明,该方法性能良好,能根据样本数据本身的特性,自动协调拟合和预报精度,不需要先验设定显著性水平和不一致率等参数,离散化结果更为精简,所建决策树分类模型具有较好的预报性能. 展开更多
关键词 粗糙集 卡方统计量 信息熵 属性重要性 离散化
下载PDF
多元正态性检验三种方法的比较及SAS程序设计 被引量:6
13
作者 朱宁 赵肖肖 唐庆华 《苏州大学学报(自然科学版)》 CAS 2012年第3期20-25,共6页
讨论了正态性检验的三种主要方法:二元等概椭圆检验法、多元χ2统计量的Q-Q图检验法和主成分检验法,分别介绍了三种方法的基本原理及步骤;并利用统计软件SAS设计出三种检验方法的程序;最后比较分析三种方法的应用场合,得到主成分检验法... 讨论了正态性检验的三种主要方法:二元等概椭圆检验法、多元χ2统计量的Q-Q图检验法和主成分检验法,分别介绍了三种方法的基本原理及步骤;并利用统计软件SAS设计出三种检验方法的程序;最后比较分析三种方法的应用场合,得到主成分检验法具有较好的检验效率. 展开更多
关键词 多元正态 等概椭圆法 卡方统计量 Q-Q图 主成分 马氏距离 SAS
下载PDF
一种新的维吾尔文文本分类特征选择方法 被引量:1
14
作者 何燕 哈力旦.阿布都热依木 +1 位作者 阿丽亚.艾尔肯 吴冰冰 《河南科技大学学报(自然科学版)》 CAS 北大核心 2016年第3期42-46,6-7,共5页
针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首先使用均值词频-逆文档频率表示特征项,通过引入一个调整公式来平衡类间选取的特征项数,从而对传统卡方统... 针对传统卡方统计量方法对特征项的频数和类别分布考虑不足的缺陷,提出了一种结合余弦相似度的卡方统计量特征选择方法。该方法首先使用均值词频-逆文档频率表示特征项,通过引入一个调整公式来平衡类间选取的特征项数,从而对传统卡方统计量方法进行修正,然后结合余弦相似度进一步消除噪声文本。在收集的维吾尔文数据集上进行实验论证。实验结果表明:改进的卡方统计量方法具有较好的鲁棒性,且分类性能优于传统的卡方统计量方法。 展开更多
关键词 维吾尔文 卡方统计量 余弦相似度 特征选择
下载PDF
中文分词模型的领域适应性方法 被引量:59
15
作者 韩冬煦 常宝宝 《计算机学报》 EI CSCD 北大核心 2015年第2期272-281,共10页
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力... 字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性. 展开更多
关键词 卡方统计量 边界熵 领域适应性 自举算法 中文分词 社会计算 社交网络
下载PDF
文本分类中基于CHI改进的特征选择方法 被引量:5
16
作者 宋呈祥 陈秀宏 牛强 《微电子学与计算机》 CSCD 北大核心 2018年第9期74-78,共5页
针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不... 针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不均衡数据集的分类指标.结果表明,改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定. 展开更多
关键词 文本分类 卡方统计量 特征选择 不均衡数据集
下载PDF
一种基于改进的TF-IDF和支持向量机的中文文本分类研究 被引量:4
17
作者 郭太勇 《软件》 2016年第12期-,共5页
TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。本... TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。本文引入卡方统计量CHI和特征词在文本中的位置作为修正因子并结合传统TF-IDF权值计算公式,很好的解决了特征词在类间分布以及关键词重要程度不足的问题,并应用支持向量机构建分类器,进行文本分类的实验验证。改进后的TF-IDF计算公式与传统TF-IDF相比,在查准率、查全率、F1测试值上都有一定程度的提升。 展开更多
关键词 文本分类 TF-IDF 卡方统计量 支持向
下载PDF
高中数学“概率与统计”新增教学内容的设计与思考
18
作者 颜佳玥 《上海课程教学研究》 2022年第9期28-33,共6页
高中数学课程中的“概率与统计”主题有别于学生长期学习的确定性逻辑思维,对于学生理解“不确定性”中的规律与科学,建立统计直觉具备重要的教育教学价值和作用。以沪教版高中数学教材必修第三册中新增的“2×2列联表独立性检验”... 高中数学课程中的“概率与统计”主题有别于学生长期学习的确定性逻辑思维,对于学生理解“不确定性”中的规律与科学,建立统计直觉具备重要的教育教学价值和作用。以沪教版高中数学教材必修第三册中新增的“2×2列联表独立性检验”一节为例,调动学生已有的数学经验去参与学习的全过程,在不断自主体验中推进学习进程,提升学生对其中数学本质的感悟和理解。 展开更多
关键词 概率统计 独立性检验 卡方统计量
下载PDF
结合word2vec与扩充情感词典的微博多元情感分类研究 被引量:14
19
作者 王名扬 吴欢 贾晓婷 《东北师大学报(自然科学版)》 CAS 北大核心 2019年第1期55-62,共8页
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信... 对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果. 展开更多
关键词 多元情感分类 卡方统计量 word2vec KNN
下载PDF
基于子树特征的中文实体关系抽取 被引量:1
20
作者 姚全珠 王美君 李如琼 《计算机工程》 CAS CSCD 2012年第1期48-50,54,共4页
基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系抽取方法。利用子树挖掘和特征选择得到有效子树,并将其作为特征模板构造特征向量。在中文语料库上进行的... 基于核函数的实体关系抽取方法将信息隐含在核函数中,无法辨别有用和无用信息,会引入噪声。为此,提出一种基于子树特征的实体关系抽取方法。利用子树挖掘和特征选择得到有效子树,并将其作为特征模板构造特征向量。在中文语料库上进行的实验结果表明,该方法具有较好的分类效果。 展开更多
关键词 实体关系抽取 短语结构语法 依存语法 特征选择 卡方统计量
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部