-
题名面向不均衡类别朴素贝叶斯犯罪案件文本分类
被引量:5
- 1
-
-
作者
程春惠
何钦铭
-
机构
浙江大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第35期126-128,131,共4页
-
基金
浙江省重大科技攻关项目
No.2006C13109~~
-
文摘
针对案件文本的特点,提出了具有针对性的特殊文本预处理方法,并比较了两种有效的特征选择方法。针对案件类别分布不均衡的特点,提出了改进的多变量贝努里模型。实验结果表明,改进的多变量贝努里模型有效地提高了案件文本分类的准确率。
-
关键词
文本分类
朴素贝叶斯
犯罪挖掘
多变量贝努里模型
多项式模型
-
Keywords
text classification
Naive Bayes
criminal mining
multi-variate Bernoulli model
multinomial mode
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名改进的朴素贝叶斯垃圾邮件过滤算法
被引量:11
- 2
-
-
作者
翟军昌
秦玉平
王春立
-
机构
渤海大学公共计算机教研部
渤海大学信息科学与工程学院
大连海事大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第14期145-148,共4页
-
基金
国家自然科学基金No.60603023
辽宁省教育厅资助科研课题No.2006A025~~
-
文摘
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表明改进后的算法有效地提高了过滤器的召回率和精确率,并且降低了过滤器的错误率。
-
关键词
垃圾邮件
朴素贝叶斯
信息增益
多变量贝努里事件模型
-
Keywords
spam email
Nave Bayes
information gain
multi-variable model of Bernoulli events
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于朴素贝叶斯算法的个性化垃圾邮件过滤
- 3
-
-
作者
翟军昌
-
机构
渤海大学公共计算机教研部
-
出处
《长春师范学院学报(自然科学版)》
2009年第2期17-20,共4页
-
文摘
目前电子邮件得到了广泛的应用,同时垃圾邮件问题也随之而来。本文针对垃圾邮件的处理,从用户的兴趣角度出发,基于朴素贝叶斯算法对垃圾邮件个性化过滤.在朴素贝叶斯算法的条件概率计算中,本文选用了多变量贝努里事件模型的计算方法,最后以VC++6.0为实验平台在Ling-Spam语料库上进行实验.
-
关键词
垃圾邮件
朴素贝叶斯
信息增益
多变量贝努里事件模型
-
Keywords
spare email
Naive Bayes
information gain
multi - variable model of Bernoulli events
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名浅析贝叶斯方法在文本分类中的应用
- 4
-
-
作者
刘颖
-
机构
辽宁金融职业学院信息技术系
-
出处
《电脑知识与技术(过刊)》
2007年第22期1074-1076,共3页
-
文摘
贝叶斯分类算法是基于贝叶斯全概率公式的分类算法,是一种简单有效的分类方法.本文系统的介绍贝叶斯分类算法的原理及贝叶斯分类算法的特点,并重点阐述两种常用的贝叶斯分类算法模型及应用.
-
关键词
贝叶斯方法
多变量贝努里事件模型
多项式模型
-
Keywords
Naive Bayes
Multi-variate Bernoulli event Model
Multinomial Model
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名重复投影数据库下的优化挖掘方法研究与仿真
- 5
-
-
作者
林荫
石林
杨长春
-
机构
常州大学怀德学院
常州大学信息科学与工程学院
-
出处
《计算机仿真》
CSCD
北大核心
2016年第5期318-321,共4页
-
文摘
进行重复投影会使数据库中出现大量冗余数据,使得数据特征之间出现相似性干扰。传统的挖掘方法,遇到特征相似性情况时,以模糊规则建立挖掘关联规则,在建立模糊规则时,一旦特征过于接近,需要加入很多的约束条件,计算过程较为繁琐,导致数据挖掘准确性差、效率低的问题。提出基于贝努里模型的大量重复投影数据库下优化挖掘方法,依据等级分组识别重复投影数据,建立贝努里模型。根据冗余属性的贡献及区分能力的不同,确定两个分类贡献系数。依据两个先验概率值,依次放大两个分类贡献系数倍。通过改进贝努里事件模型中条件概率中的估计方法,划分大量重复投影数据库下的重复数据,实现大量重复投影数据库下的优化挖掘,提高数据搜索效率。仿真结果表明,改进方法不仅具有较优的挖掘性能,而且挖掘效率高。
-
关键词
重复投影数据库
挖掘
贝努里模型
-
Keywords
Repeat projection database
Mining
Bernoulli model
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名谈经济数学中概率习题的解法
- 6
-
-
作者
王耀中
-
机构
天津市财贸管理干部学院
-
出处
《天津市财贸管理干部学院学报》
2002年第3期29-30,32,共3页
-
文摘
本文以《经济应用数学基础(三)》中的概率为基础,探讨了概率习题的基本解法并归纳出一些规律公式。
-
关键词
排列组合
概率
随机事件
贝努里模型
解题方法
经济数学
概率习题
-
Keywords
permutation and combination
probability
random event
Bernoulli scheme
-
分类号
O211-4
[理学—概率论与数理统计]
-
-
题名陕西省中长期地震活动趋势初步探讨
- 7
-
-
作者
李晋
李媛媛
潘存英
袁志祥
-
机构
陕西省地震局
长安大学资源学院
-
出处
《高原地震》
2006年第1期41-45,共5页
-
文摘
利用陕西省丰富翔实的历史地震资料及1970~2004年陕西区域测震台网的地震资料,应用贝努里概率模型,对陕西省中长期地震活动趋势做初步的探讨分析。
-
关键词
陕西省
贝努里概率模型
地震活动趋势
-
Keywords
Shannxi province
Bernoulli Model
Seismic active trend
-
分类号
P315.75
[天文地球—地震学]
-
-
题名概率分布模型在保险业中的应用
- 8
-
-
作者
李兰若
-
机构
天津市人民保险公司
-
出处
《统计科学与实践(天津)》
2004年第3期42-43,共2页
-
文摘
概率是研究随机现象规律性的一门科学,即通过对某些现象变化频率的观察来研究其变化的规律性,并对这种规律性作出一定的判断和预测。保险是具有经营风险的行业,研究各种风险的变化规律及量化分析尤为重要。而各种风险的出现在某种意义上说是随机的,因此,运用概率理论研究各种风险预测和在此基础上的企业收支预测都会起到重要作用。
-
关键词
概率分布模型
保险业
贝努里模型
泊松模型
正态分布
风险预测
-
分类号
F840
[经济管理—保险]
O211
[理学—概率论与数理统计]
-