期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
Naïve Bayes Algorithm for Large Scale Text Classification
1
作者 Pirunthavi SIVAKUMAR Jayalath EKANAYAKE 《Instrumentation》 2021年第4期55-62,共8页
This paper proposed an improved Naïve Bayes Classifier for sentimental analysis from a large-scale dataset such as in YouTube.YouTube contains large unstructured and unorganized comments and reactions,which carry... This paper proposed an improved Naïve Bayes Classifier for sentimental analysis from a large-scale dataset such as in YouTube.YouTube contains large unstructured and unorganized comments and reactions,which carry important information.Organizing large amounts of data and extracting useful information is a challenging task.The extracted information can be considered as new knowledge and can be used for deci sion-making.We extract comments from YouTube on videos and categorized them in domain-specific,and then apply the Naïve Bayes classifier with improved techniques.Our method provided a decent 80%accuracy in classifying those comments.This experiment shows that the proposed method provides excellent adaptability for large-scale text classification. 展开更多
关键词 Naïve bayes Text classification YOUTUBE Sentimental Analysis
下载PDF
Attribute Weighted Naïve Bayes Classifier 被引量:1
2
作者 Lee-Kien Foo Sook-Ling Chua Neveen Ibrahim 《Computers, Materials & Continua》 SCIE EI 2022年第4期1945-1957,共13页
The naïve Bayes classifier is one of the commonly used data mining methods for classification.Despite its simplicity,naïve Bayes is effective and computationally efficient.Although the strong attribute indep... The naïve Bayes classifier is one of the commonly used data mining methods for classification.Despite its simplicity,naïve Bayes is effective and computationally efficient.Although the strong attribute independence assumption in the naïve Bayes classifier makes it a tractable method for learning,this assumption may not hold in real-world applications.Many enhancements to the basic algorithm have been proposed in order to alleviate the violation of attribute independence assumption.While these methods improve the classification performance,they do not necessarily retain the mathematical structure of the naïve Bayes model and some at the expense of computational time.One approach to reduce the naïvetéof the classifier is to incorporate attribute weights in the conditional probability.In this paper,we proposed a method to incorporate attribute weights to naïve Bayes.To evaluate the performance of our method,we used the public benchmark datasets.We compared our method with the standard naïve Bayes and baseline attribute weighting methods.Experimental results show that our method to incorporate attribute weights improves the classification performance compared to both standard naïve Bayes and baseline attribute weighting methods in terms of classification accuracy and F1,especially when the independence assumption is strongly violated,which was validated using the Chi-square test of independence. 展开更多
关键词 Attribute weighting naïve bayes Kullback-Leibler information gain classification
下载PDF
Integration of Expectation Maximization using Gaussian Mixture Models and Naïve Bayes for Intrusion Detection
3
作者 Loka Raj Ghimire Roshan Chitrakar 《Journal of Computer Science Research》 2021年第2期1-10,共10页
Intrusion detection is the investigation process of information about the system activities or its data to detect any malicious behavior or unauthorized activity.Most of the IDS implement K-means clustering technique ... Intrusion detection is the investigation process of information about the system activities or its data to detect any malicious behavior or unauthorized activity.Most of the IDS implement K-means clustering technique due to its linear complexity and fast computing ability.Nonetheless,it is Naïve use of the mean data value for the cluster core that presents a major drawback.The chances of two circular clusters having different radius and centering at the same mean will occur.This condition cannot be addressed by the K-means algorithm because the mean value of the various clusters is very similar together.However,if the clusters are not spherical,it fails.To overcome this issue,a new integrated hybrid model by integrating expectation maximizing(EM)clustering using a Gaussian mixture model(GMM)and naïve Bays classifier have been proposed.In this model,GMM give more flexibility than K-Means in terms of cluster covariance.Also,they use probabilities function and soft clustering,that’s why they can have multiple cluster for a single data.In GMM,we can define the cluster form in GMM by two parameters:the mean and the standard deviation.This means that by using these two parameters,the cluster can take any kind of elliptical shape.EM-GMM will be used to cluster data based on data activity into the corresponding category. 展开更多
关键词 Anomaly detection Clustering EM classification Expectation maximization(EM) Gaussian mixture model(GMM) GMM classification Intrusion detection Naïve bayes classification
下载PDF
Roman Urdu News Headline Classification Empowered with Machine Learning 被引量:2
4
作者 Rizwan Ali Naqvi Muhammad Adnan Khan +3 位作者 Nauman Malik Shazia Saqib Tahir Alyas Dildar Hussain 《Computers, Materials & Continua》 SCIE EI 2020年第11期1221-1236,共16页
Roman Urdu has been used for text messaging over the Internet for years especially in Indo-Pak Subcontinent.Persons from the subcontinent may speak the same Urdu language but they might be using different scripts for ... Roman Urdu has been used for text messaging over the Internet for years especially in Indo-Pak Subcontinent.Persons from the subcontinent may speak the same Urdu language but they might be using different scripts for writing.The communication using the Roman characters,which are used in the script of Urdu language on social media,is now considered the most typical standard of communication in an Indian landmass that makes it an expensive information supply.English Text classification is a solved problem but there have been only a few efforts to examine the rich information supply of Roman Urdu in the past.This is due to the numerous complexities involved in the processing of Roman Urdu data.The complexities associated with Roman Urdu include the non-availability of the tagged corpus,lack of a set of rules,and lack of standardized spellings.A large amount of Roman Urdu news data is available on mainstream news websites and social media websites like Facebook,Twitter but meaningful information can only be extracted if data is in a structured format.We have developed a Roman Urdu news headline classifier,which will help to classify news into relevant categories on which further analysis and modeling can be done.The author of this research aims to develop the Roman Urdu news classifier,which will classify the news into five categories(health,business,technology,sports,international).First,we will develop the news dataset using scraping tools and then after preprocessing,we will compare the results of different machine learning algorithms like Logistic Regression(LR),Multinomial Naïve Bayes(MNB),Long short term memory(LSTM),and Convolutional Neural Network(CNN).After this,we will use a phonetic algorithm to control lexical variation and test news from different websites.The preliminary results suggest that a more accurate classification can be accomplished by monitoring noise inside data and by classifying the news.After applying above mentioned different machine learning algorithms,results have shown that Multinomial Naïve Bayes classifier is giving the best accuracy of 90.17%which is due to the noise lexical variation. 展开更多
关键词 Roman urdu news headline classification long short term memory recurrent neural network logistic regression multinomial naïve bayes random forest k neighbor gradient boosting classifier
下载PDF
适用于中国外语学习者的英文作文全自动集成评分算法 被引量:9
5
作者 李霞 刘建达 《中文信息学报》 CSCD 北大核心 2013年第5期100-106,共7页
中国英语学习者人数众多,迫切需要针对中国学生特点的、有效适用于大规模英文作文数据的全自动评分算法,以解决中国现有英语教学和大规模英语考试中英文作文批改量大和难度大的瓶颈问题。该文提出了一种能够有效识别中国英语学习者写作... 中国英语学习者人数众多,迫切需要针对中国学生特点的、有效适用于大规模英文作文数据的全自动评分算法,以解决中国现有英语教学和大规模英语考试中英文作文批改量大和难度大的瓶颈问题。该文提出了一种能够有效识别中国英语学习者写作特点并能自动识别特征维数的特征选择方法,并在此基础上提出了适用于不平衡分布数据的集成分类评分算法。对来自中国英语学习者语料库中大学英语四、六级不同主题下的1 115篇作文的分类结果显示,该文提出的算法比传统的分类评分算法在类内及类间平均分类准确度、召回率及F度量值上均有较大幅度的提升。 展开更多
关键词 作文自动评分 不平衡数据分类 多项式朴素贝叶斯
下载PDF
分布式传感器网络混合探测信号分类方法 被引量:2
6
作者 李侃 许航 黄忠华 《通信学报》 EI CSCD 北大核心 2012年第S1期53-57,共5页
针对分布式传感器网络的局限性特征,研究分布式传感器网络混合探测信号的分类算法。提出了基于属性重要度的贝叶斯分类算法,该算法继承了朴素贝叶斯分类算法结构简单、运算快捷的特点,同时弥补了类条件独立假设带来的缺陷,在实践中具有... 针对分布式传感器网络的局限性特征,研究分布式传感器网络混合探测信号的分类算法。提出了基于属性重要度的贝叶斯分类算法,该算法继承了朴素贝叶斯分类算法结构简单、运算快捷的特点,同时弥补了类条件独立假设带来的缺陷,在实践中具有较高的分类精度,其特点符合混合探测信号的分类要求。实验结果表明,该算法分类效果优于同类分类算法,可以有效地完成混合探测信号的分类任务。 展开更多
关键词 朴素贝叶斯分类器 属性重要度 分布式传感器网络 混合探测信号
下载PDF
基于单类别学习的自适应数据流分类算法 被引量:1
7
作者 张栋 王勇 蔡立军 《西北工业大学学报》 EI CAS CSCD 北大核心 2010年第5期713-717,共5页
目前挖掘概念流动的数据流已经成了研究热点。文章提出了一种既能很好地处理概念漂移又能从单类别中学习的算法UP-AB。通过在超平面数据集和标准数据集上的实验,与PNB[1]算法比较,表明该算法具有更高的准确度,能更快地适应概念漂移。
关键词 数据挖掘 分类器 算法
下载PDF
引入数据平滑的增量式贝叶斯垃圾邮件过滤方法 被引量:2
8
作者 王祖辉 姜维 《计算机工程与应用》 CSCD 2012年第16期21-25,共5页
朴素贝叶斯分类器在处理垃圾邮件过滤任务时,往往存在数据稀疏问题。由于语料库中特征出现遵循Zipf定律,所以单纯依靠增加训练语料方式难以解决该问题。为克服数据稀疏问题,引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率。通过... 朴素贝叶斯分类器在处理垃圾邮件过滤任务时,往往存在数据稀疏问题。由于语料库中特征出现遵循Zipf定律,所以单纯依靠增加训练语料方式难以解决该问题。为克服数据稀疏问题,引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率。通过领域术语抽取与概念相关模型增加分类中语义知识处理能力。采用增量式学习方法完成动态在线学习过程。Ling-Spam垃圾邮件语料库实验表明该方法提高分类精度2.51%,在国家863语料表明该方法比Laplace原则提高了3.05%。 展开更多
关键词 垃圾邮件过滤 贝叶斯分类 数据平滑
下载PDF
基于贝叶斯信念网的网络流量分类与识别研究 被引量:3
9
作者 杨彩虹 黄本雄 《计算机应用与软件》 CSCD 2011年第1期216-219,共4页
网络流量分类识别技术是许多网络研究和应用领域的基础,但随着动态端口、端口伪装和信息加密等技术的使用,传统的纯端口识别法已不再有效。提出一种基于贝叶斯信念网的网络流量分类方法,通过使用有向无环图和结点概率表,很好地解决了流... 网络流量分类识别技术是许多网络研究和应用领域的基础,但随着动态端口、端口伪装和信息加密等技术的使用,传统的纯端口识别法已不再有效。提出一种基于贝叶斯信念网的网络流量分类方法,通过使用有向无环图和结点概率表,很好地解决了流属性之间条件独立的问题。对真实网络流量数据的测试结果表明,这种方法具有稳定可靠的分类识别效果。 展开更多
关键词 网络流量分类与识别 机器学习 朴素贝叶斯分类器 贝叶斯信念网
下载PDF
基于加权改进贝叶斯算法的维吾尔文文本分类 被引量:5
10
作者 陈洋 哈力旦.阿布都热依木 +1 位作者 伊力亚尔.达吾提 亚力青.阿里玛斯 《计算机工程与设计》 CSCD 北大核心 2014年第6期1999-2003,共5页
为了提高朴素贝叶斯分类器在维吾尔文本中的分类性能,在具体分析维吾尔文文字特性的基础上,对其进行向量化预处理,降低空间维度。考虑到特征项在集合中的具体分布情况,从特征项的区分度和代表性的角度出发,结合词频,提出了3个权重调整系... 为了提高朴素贝叶斯分类器在维吾尔文本中的分类性能,在具体分析维吾尔文文字特性的基础上,对其进行向量化预处理,降低空间维度。考虑到特征项在集合中的具体分布情况,从特征项的区分度和代表性的角度出发,结合词频,提出了3个权重调整系数,对传统的权值函数TFIDF进行了改进,修正了不同特征词对分类的贡献度。在构建的维吾尔文语料库上进行实验,实验结果表明,与朴素贝叶斯算法相比,此算法具有更好的分类性能。 展开更多
关键词 文本分类 维吾尔文 朴素贝叶斯 词频反文档频 权值调整
下载PDF
基于搜索编码的简单贝叶斯分类方法 被引量:1
11
作者 蒋艳凰 杨学军 《国防科技大学学报》 EI CAS CSCD 北大核心 2004年第5期63-69,共7页
简单贝叶斯法性能稳定,分类精度难以提高。通过分析搜索编码法产生的纠错输出码的性质,提出基于搜索编码的简单贝叶斯算法SCNB,并详细阐述了SCNB算法的应用流程。实验结果表明,采用搜索编码法能够有效提高简单贝叶斯分类器的泛化能力。
关键词 监督分类 简单贝叶斯算法 纠错输出码 搜索编码法
下载PDF
朴素贝叶斯在文本分类中的应用 被引量:12
12
作者 熊志斌 刘冬 《软件导刊》 2013年第2期49-51,共3页
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。
关键词 中文信息处理 文本分类 机器学习 朴素贝叶斯
下载PDF
基于机器学习的类目映射方法——国际专利分类法与中国图书馆分类法 被引量:10
13
作者 靳雪茹 齐建东 +1 位作者 王立臣 周林志 《计算机应用》 CSCD 北大核心 2011年第7期1781-1784,共4页
专利和期刊隶属于不同的知识组织体系,要实现专利与期刊文献的交叉浏览和检索必须解决两种分类法(中国图书馆分类法(CLC)和国际专利分类法(IPC))之间的映射问题。在调研现有分类法类目映射方法的基础上,讨论了基于机器学习实现中国图书... 专利和期刊隶属于不同的知识组织体系,要实现专利与期刊文献的交叉浏览和检索必须解决两种分类法(中国图书馆分类法(CLC)和国际专利分类法(IPC))之间的映射问题。在调研现有分类法类目映射方法的基础上,讨论了基于机器学习实现中国图书馆分类法和国际专利分类法之间类目映射的方法。通过对中图法某个类目标识的语料进行训练得到该类目的分类器,然后用其对国际专利分类法标识的语料进行分类,对分类结果进行分析得出类目间的映射关系。对比实验证明了该方法的有效性。 展开更多
关键词 类目映射 国际专利分类法 中国图书馆分类法 朴素贝叶斯方法 决策树
下载PDF
使用机器学习对汉语评论进行情感分类 被引量:4
14
作者 白鸽 左万利 +1 位作者 赵乾坤 曲仁镜 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2009年第6期1260-1263,共4页
针对汉语评论的多种特征使用机器学习方法(如贝叶斯、最大熵和支持向量机),解决了汉语评论的情感分类问题.实验结果表明,机器学习方法对汉语评论的分类效果较好,支持向量机的表现最好.句子级别和评论级别的准确率分别达到88.26%和91.79%.
关键词 情感分类 贝叶斯分类器 最大熵 支持向量机
下载PDF
分类算法在手机取证中的应用 被引量:1
15
作者 肖程望 卢军 余力耕 《电子设计工程》 2017年第22期49-53,共5页
在当今社会,手机犯罪越来越引起人们的重视,对研究人员来说需要马上研究相应的对策加以应对,智能手机的使用率越来越高也促使了手机取证技术的研究发展。同时采用Android系统的智能手机越来越多,针对Android系统手机取证的电子证据进行... 在当今社会,手机犯罪越来越引起人们的重视,对研究人员来说需要马上研究相应的对策加以应对,智能手机的使用率越来越高也促使了手机取证技术的研究发展。同时采用Android系统的智能手机越来越多,针对Android系统手机取证的电子证据进行相应的数据分析,能更方便和直观的发现手机信息中的重点与需要关注的目标对象。在本文中应用了朴素贝叶斯分类算法对数据中各联系人进行分类,而朴素贝叶斯分类算法的条件独立性假设是非常苛刻的,很难在正常情况下满足,本文中提出了一种基于变异系数法的加权朴素贝叶斯分类模型,克服这个问题关键在于利用各项指标间所包含的信息的差异,通过计算得到指标的权重。有效地提高了朴素贝叶斯算法的分类性能,并且也继承了贝叶斯分类算法的简单性,本文首先对算法原理进行了分析与证明,然后描述了相应的算法,在最后给出了基于变异系数法的属性权值求解方法。 展开更多
关键词 手机取证 取证方法 分类算法 朴素贝叶斯 变异系数
下载PDF
Predicting the Type of Crime: Intelligence Gathering and Crime Analysis 被引量:3
16
作者 Saleh Albahli Anadil Alsaqabi +3 位作者 Fatimah Aldhubayi Hafiz Tayyab Rauf Muhammad Arif Mazin Abed Mohammed 《Computers, Materials & Continua》 SCIE EI 2021年第3期2317-2341,共25页
Crimes are expected to rise with an increase in population and the rising gap between society’s income levels.Crimes contribute to a significant portion of the socioeconomic loss to any society,not only through its i... Crimes are expected to rise with an increase in population and the rising gap between society’s income levels.Crimes contribute to a significant portion of the socioeconomic loss to any society,not only through its indirect damage to the social fabric and peace but also the more direct negative impacts on the economy,social parameters,and reputation of a nation.Policing and other preventive resources are limited and have to be utilized.The conventional methods are being superseded by more modern approaches of machine learning algorithms capable of making predictions where the relationships between the features and the outcomes are complex.Making it possible for such algorithms to provide indicators of specific areas that may become criminal hot-spots.These predictions can be used by policymakers and police personals alike to make effective and informed strategies that can curtail criminal activities and contribute to the nation’s development.This paper aims to predict factors that most affected crimes in Saudi Arabia by developing a machine learning model to predict an acceptable output value.Our results show that FAMD as features selection methods showed more accuracy on machine learning classifiers than the PCA method.The naïve Bayes classifier performs better than other classifiers on both features selections methods with an accuracy of 97.53%for FAMD,and PCA equals to 97.10%. 展开更多
关键词 PREDICTION machine learning crime prevention naïve bayes crime prediction classification algorithms
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部