期刊文献+
共找到200篇文章
< 1 2 10 >
每页显示 20 50 100
基于Boosting机制的Naive Bayesian文本分类器 被引量:3
1
作者 崔林 付克明 +1 位作者 石生树 宋瀚涛 《计算机工程与应用》 CSCD 北大核心 2005年第8期31-33,67,共4页
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3... Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。 展开更多
关键词 BOOSTING NAIVE bayesian CLASSIFIER 文本分类 文本挖掘 数据挖掘
下载PDF
最大散度差分类器及其在文本分类中的应用 被引量:8
2
作者 宋枫溪 刘树海 +1 位作者 杨静宇 夏赛飞 《计算机工程》 EI CAS CSCD 北大核心 2005年第5期8-10,50,共4页
提出的最大散度差分类器是在修正Fisher线性鉴别准则的基础上建立起来的,它与Rocchio和SVM分类器有着十分密切的联系。在国际标准语料库20Newsgroups上进行的仿真实验结果表明,最大散度差分类器具有良好的文本分类性能,其正确识别率明... 提出的最大散度差分类器是在修正Fisher线性鉴别准则的基础上建立起来的,它与Rocchio和SVM分类器有着十分密切的联系。在国际标准语料库20Newsgroups上进行的仿真实验结果表明,最大散度差分类器具有良好的文本分类性能,其正确识别率明显高于NaiveBayes和Rocchio,与SVM相当。 展开更多
关键词 最大散度差分类器 NAIVE Baycs分类器 Rocchio分类器 SVM分类器 文本分类
下载PDF
基于MCA-BERT的数学文本分类方法 被引量:2
3
作者 杨先凤 龚睿 李自强 《计算机工程与设计》 北大核心 2023年第8期2312-2319,共8页
为尽可能地提高数学文本分类的效果,通过构建数学文本数据集并对该数据集进行分析,提出增强文本实体信息的多通道注意力机制-Transformers的双向编码器表示(MCA-BERT)模型。通过Word2vec词向量的平均池化获得句子级的实体信息,通过注意... 为尽可能地提高数学文本分类的效果,通过构建数学文本数据集并对该数据集进行分析,提出增强文本实体信息的多通道注意力机制-Transformers的双向编码器表示(MCA-BERT)模型。通过Word2vec词向量的平均池化获得句子级的实体信息,通过注意力机制给不同词赋予不同权重,获得词语级的实体信息,将两类实体信息与BERT输出的上下文信息拼接,通过Softmax层得到分类结果。该方法在数学文本数据集上的F1值相比BERT单通道的方法提高了2.1个百分点。实验结果说明,该方法能够有效增强文本实体信息,获得更好的分类效果。 展开更多
关键词 数学文本分类 实体信息 注意力机制 多通道 双向编码器表示 词向量 分类器
下载PDF
一种文本处理中的朴素贝叶斯分类器 被引量:76
4
作者 李静梅 孙丽华 +1 位作者 张巧荣 张春生 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第1期71-74,共4页
首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题.然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器... 首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题.然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器的应用,提高了朴素贝叶斯分类器的分类精度.文章最后给出一组实验数据.本文的研究发现,朴素贝叶斯分类器分类精度较高,并且不存在单分类器与多分类器的实现差异,是一个比较实用的分类器. 展开更多
关键词 朴素贝叶斯分类器 特征独立 文本分类 文本处理
下载PDF
特征权对贝叶斯分类器文本分类性能的影响 被引量:3
5
作者 高秀梅 陈芳 +1 位作者 宋枫溪 金忠 《计算机应用》 CSCD 北大核心 2008年第12期3080-3083,共4页
在文本分类研究中,人们希望用特征权来改善文本分类效果。以最优分类器——贝叶斯分类器为基准分类器,研究了特征权对文本分类性能的可能影响。理论推导表明,就最优分类器而言,特征权不能有效提高文本分类效果。
关键词 文本分类 文本表示 特征权 贝叶斯分类器 分类器性能
下载PDF
基于词频分类器集成的文本分类方法 被引量:22
6
作者 姜远 周志华 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1681-1687,共7页
提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于... 提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器·在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务·在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果· 展开更多
关键词 文本分类 机器学习 集成学习 词频分类器 ADABOOST
下载PDF
文本分类器准确性评估方法 被引量:13
7
作者 程泽凯 林士敏 《情报学报》 CSSCI 北大核心 2004年第5期631-636,共6页
随着计算机网络与信息技术的飞速发展,信息极大丰富而知识相对匮乏的状况在加剧.文本挖掘正成为目前研究者关注的焦点.文本分类是文本挖掘的基础和核心.构建一个分类准确的文本分类器是文本分类的关键.现在有很多文本分类的算法,在不同... 随着计算机网络与信息技术的飞速发展,信息极大丰富而知识相对匮乏的状况在加剧.文本挖掘正成为目前研究者关注的焦点.文本分类是文本挖掘的基础和核心.构建一个分类准确的文本分类器是文本分类的关键.现在有很多文本分类的算法,在不同的领域里取得了较好的效果.如何更加客观地评估分类器的性能,是目前值得研究的方向之一.结合作者的实际工作,本文列出目前常用的分类准确性测试和评估方法,简单对评估方法进行比较分析.文末提出了对准确性评估的一些改进设想. 展开更多
关键词 文本挖掘 文本分类器 准确性评估 评估方法 数据挖掘
下载PDF
基于自助平均的朴素贝叶斯文本分类器 被引量:5
8
作者 白莉媛 黄晖 +1 位作者 刘素华 阎秋玲 《计算机工程》 CAS CSCD 北大核心 2007年第15期190-192,共3页
针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数... 针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数的平均值作为训练得到的参数对未知文本进行分类。公共文本实验数据集上的实验结果表明,该文提出的训练方法相对于传统的朴素贝叶斯分类器训练方法能够获得更高的分类精度且过程相对简单。 展开更多
关键词 分布聚类 文本分类 朴素贝叶斯分类器 自助平均
下载PDF
运用文本领域的常识改善基于支撑向量机的文本分类器性能 被引量:16
9
作者 李辉 史忠植 许卓群 《中文信息学报》 CSCD 北大核心 2002年第2期7-13,共7页
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结... 本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。 展开更多
关键词 文本分类器 同语义文档子段替换 人工文档样本 相容性条件 支撑向量机 文本信息机理
下载PDF
基于分类器性能评价的Bagging文本分类算法 被引量:5
10
作者 赵苏 李秀 刘文煌 《计算机工程》 CAS CSCD 北大核心 2008年第1期61-63,共3页
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子... 提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。 展开更多
关键词 文本分类 分类器性能 评价模型 BAGGING算法
下载PDF
SVMDT分类器及其在文本分类中的应用研究 被引量:15
11
作者 韩家新 何华灿 《计算机应用研究》 CSCD 北大核心 2004年第1期23-24,43,共3页
基于SVM(Support Vectort Machine)理论的分类器已经发展为一种通用的二值分类器,但它不适用于多值的场合。在分析经典的SVM分类算法和决策树分类算法的基础上,提出了将SVM和二叉决策树结合的方法来实现多值分类器(SVMDT),并将其应用于... 基于SVM(Support Vectort Machine)理论的分类器已经发展为一种通用的二值分类器,但它不适用于多值的场合。在分析经典的SVM分类算法和决策树分类算法的基础上,提出了将SVM和二叉决策树结合的方法来实现多值分类器(SVMDT),并将其应用于文本分类,实验表明在分类精度和速度上具有良好的性能。 展开更多
关键词 支持矢量机 二叉决策树 多值分类器 文本分类
下载PDF
结合旋转森林和Ada Boost分类器的多标签文本分类方法 被引量:10
12
作者 韩栋 王春华 肖敏 《计算机应用研究》 CSCD 北大核心 2018年第12期3655-3658,共4页
针对一些多标签文本分类算法没有考虑文本—术语相关性和准确率不高的问题,提出一种结合旋转森林和Ada Boost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形... 针对一些多标签文本分类算法没有考虑文本—术语相关性和准确率不高的问题,提出一种结合旋转森林和Ada Boost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形成多个具有较大差异性的新样本子集。然后,基于Ada Boost算法,在样本子集中通过多次迭代构建多个Ada Boost基分类器。最后,通过概率平均法融合多个基分类器的决策结果,以此作出最终标签预测。在四个基准数据集上的实验结果表明,该方法在平均精确度、覆盖率、排名损失、汉明损失和1-错误率方面都具有优越的性能。 展开更多
关键词 多标签文本分类 文本—术语相关性 旋转森林 特征变换 ADA Boost分类器
下载PDF
非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换 被引量:10
13
作者 李燕萍 曹盼 +2 位作者 石杨 张燕 钱博 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期322-329,共8页
提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于... 提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于辅助分类器生成对抗网络将特征样本的类别标签作为辅助信息,其鉴别器不仅能预测样本真假,还能预测生成样本所属的类别,从而提高了生成对抗网络的生成效果.充分的客观和主观评价表明:本文提出的方法明显优于基准模型,在显著改善语音质量的同时也有效提升了说话人个性的相似度. 展开更多
关键词 语音转换 变分自编码器 非平行文本 辅助分类器生成对抗网络 多对多
下载PDF
文本分类器稳定性评估研究 被引量:3
14
作者 程泽凯 林士敏 《情报学报》 CSSCI 北大核心 2005年第1期64-68,共5页
文本分类是文本挖掘的基础和核心.构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法.在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及.本文提... 文本分类是文本挖掘的基础和核心.构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法.在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及.本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准.通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性. 展开更多
关键词 文本分类器 贝叶斯分类器 文本挖掘 数据验证 实验平台 算法 测试 评估标准 评价标准 关心
下载PDF
中文文本分类器的设计 被引量:10
15
作者 陆建江 张文献 《计算机工程与应用》 CSCD 北大核心 2002年第15期49-51,共3页
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类... 文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类器能随着语料库中文本的变化而增加新的类,具有很好的可扩展性;分类器基于Boosting算法,具有很好的分类精度。 展开更多
关键词 中文文本分类器 设计 机器学习 BOOSTING算法 自然语言处理
下载PDF
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量:16
16
作者 毛伟 徐蔚然 郭军 《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数... 本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 展开更多
关键词 计算机应用 中文信息处理 中文文本分类 N-GRAM语言模型 链状朴素贝叶斯分类器
下载PDF
DocOnto--一种基于本体的文本分类器 被引量:1
17
作者 杨喜权 孙娜 +1 位作者 张野 孔德冉 《计算机应用》 CSCD 北大核心 2008年第S2期58-60,64,共4页
基于概念类别属性,在Protege平台下构建了茶领域本体,并实现基于茶领域本体的DocOnto文本分类器。在该分类器上对茶文档、酒文档和比萨文档进行分类实验,并与朴素贝叶斯分类器的实验结果对比,表明DocOnto分类器在综合查准率相当的情况下... 基于概念类别属性,在Protege平台下构建了茶领域本体,并实现基于茶领域本体的DocOnto文本分类器。在该分类器上对茶文档、酒文档和比萨文档进行分类实验,并与朴素贝叶斯分类器的实验结果对比,表明DocOnto分类器在综合查准率相当的情况下,有效地提高召回率,获得更高的F1指标。 展开更多
关键词 文本分类器 领域本体 贝叶斯分类器
下载PDF
基于多重特征选择和多分类器融合的文本层次分类研究 被引量:1
18
作者 贾美英 杨炳儒 +1 位作者 郑德权 陈庆轩 《计算机应用研究》 CSCD 北大核心 2009年第12期4467-4470,共4页
针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表... 针对大量电子文档需要准确地进行多层次自动分类管理的现实需求,提出基于多重特征选择和多分类器融合技术的层次分类方法。通过引入可信度函数对单分类器效果进行评价,适时采用辅助分类器对较难分类的文档进行分类投票判决。实验结果表明,相对于单分类器,该方法无论在平面分类和层次分类语料上都获得了更好的分类精度,且具有较好的时间复杂性,有很好的实际应用前景。 展开更多
关键词 文本自动分类 文本层次分类 多重特征选择 可信度函数 分类器融合
下载PDF
基于Boost和信任函数的多文本分类器组合模型 被引量:1
19
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机工程与应用》 CSCD 北大核心 2002年第2期51-54,共4页
人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提... 人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提高分类的精度是一个非常活跃的研究领域。文章提出使用近年在传统概率统计方法之上发展起来的信任函数理论和方法对多个文本分类器进行组合使用。具体方法是使用信任函数将分类结果进行综合,得到最终的分类结果。实验证明,基于信任函数的信息综合方法比已有的方法更合理,精度也得到提高。 展开更多
关键词 BOOST 信任函数 文本分类器组合模型 文档管理 信息处理
下载PDF
一种新的用于文本分类的概率分类器设计 被引量:1
20
作者 苏小英 胡彦鹏 +1 位作者 杨竣辉 李明 《计算机技术与发展》 2014年第3期46-48,53,共4页
为了进一步提高文本分类的准确率,文中介绍了一种新的用于文本分类的概率分类器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。文中给出... 为了进一步提高文本分类的准确率,文中介绍了一种新的用于文本分类的概率分类器。该分类器首先通过自然语言处理技术对文本进行预处理,然后从训练集中读取文本信息从而产生正、负规则,并计算正负权重系数,最后计算正、负概率。文中给出了计算正负权重系数的算法,并根据计算出来的权重系数及正、负概率值对文本进行分类。将文中提出的概率分类器与SVM分类器进行对比实验,实验结果表明,文中设计的概率分类器对于文本分类效果较好。 展开更多
关键词 文本分类 文本挖掘 概率 分类器
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部