大多数以规则为基础的分类不能直接处理像血压这一类连续数据.离散化数据预处理可以将连续的数据转变成分类格式.现有的离散化算法没有考虑到数据集中连续变量的多模态分类密度,这可能会降低以规则为基础的分类器性能.提出一种新的基于...大多数以规则为基础的分类不能直接处理像血压这一类连续数据.离散化数据预处理可以将连续的数据转变成分类格式.现有的离散化算法没有考虑到数据集中连续变量的多模态分类密度,这可能会降低以规则为基础的分类器性能.提出一种新的基于高斯混合模型的离散化算法(Discretization Algorithm based on Gaussian Mixture Model,DAGMM),通过考虑连续变量的多峰分布以保留数据的原始模式.DAGMM算法的有效性通过4个公开可用的医疗数据集进行验证.实验结果表明,在产生的规则数和关联分类算法的分类准确度方面,DAGMM算法优于其它6个静态离散化算法.因此,在临床专家系统中运用此方法,有潜力提高以规则为基础的分类器的性能.展开更多
传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多...传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。展开更多
蛋白质二级结构预测问题,是生物信息学领域中最为重要的任务之一,历经三十多年的研究,已取得了一些进展,尤其是近来集成预测模型与混合预测模型的引入,为预测精度带来了一定程度的提高,然而其离从二级结构推导三级结构的目标,仍然存在...蛋白质二级结构预测问题,是生物信息学领域中最为重要的任务之一,历经三十多年的研究,已取得了一些进展,尤其是近来集成预测模型与混合预测模型的引入,为预测精度带来了一定程度的提高,然而其离从二级结构推导三级结构的目标,仍然存在很大差距。为了有效提高蛋白质二级结构预测精度,以KDTICM理论的扩展性研究与KDD*模型为基础,使用基于KDD*模型的关联分析蛋白质二级结构预测方法KAAPRO,提出一种基于支持度与可信度的复杂距离度量的CBA(classification based on association)算法,并以该算法为核心构建逐步求精、多层递阶的合成金字塔模型,该模型整体贯穿领域知识,并采用因果细胞自动机选择有效物化属性。在对偏alpha、beta型蛋白质的预测实验中,改进型CBA算法较好地完成了对结构特征不明显氨基酸的预测,获得了较优的预测效果。展开更多
Content extraction of HTML pages is the basis of the web page clustering and information retrieval,so it is necessary to eliminate cluttered information and very important to extract content of pages accurately.A nove...Content extraction of HTML pages is the basis of the web page clustering and information retrieval,so it is necessary to eliminate cluttered information and very important to extract content of pages accurately.A novel and accurate solution for extracting content of HTML pages was proposed.First of all,the HTML page is parsed into DOM object and the IDs of all leaf nodes are generated.Secondly,the score of each leaf node is calculated and the score is adjusted according to the relationship with neighbors.Finally,the information blocks are found according to the definition,and a universal classification algorithm is used to identify the content blocks.The experimental results show that the algorithm can extract content effectively and accurately,and the recall rate and precision are 96.5% and 93.8%,respectively.展开更多
文摘大多数以规则为基础的分类不能直接处理像血压这一类连续数据.离散化数据预处理可以将连续的数据转变成分类格式.现有的离散化算法没有考虑到数据集中连续变量的多模态分类密度,这可能会降低以规则为基础的分类器性能.提出一种新的基于高斯混合模型的离散化算法(Discretization Algorithm based on Gaussian Mixture Model,DAGMM),通过考虑连续变量的多峰分布以保留数据的原始模式.DAGMM算法的有效性通过4个公开可用的医疗数据集进行验证.实验结果表明,在产生的规则数和关联分类算法的分类准确度方面,DAGMM算法优于其它6个静态离散化算法.因此,在临床专家系统中运用此方法,有潜力提高以规则为基础的分类器的性能.
文摘传统关联分类算法使用单一最小项目支持度挖掘关联规则,导致稀有项关联规则无法被发现,从而影响分类的准确性和实用性。提出一种多支持度关联规则分类算法MS-CBAR(Multiple Supports-Classification Based on Association Rules),将多最小项目支持度模型应用于关联分类,以有效挖掘稀有项。该算法为数据库中的规则项提供了用户可定义的最小项目支持度。MS-CBAR算法使用项的最小项支持度阈值、类的最小类支持度值和规则项的最小支持度值决定分类规则是否频繁。生成分类规则集后,使用最高优先度规则覆盖法基于规则集建立分类器。实验表明,所提算法在包含稀有项目及稀有类的数据集中准确率高于传统关联分类算法及其相关算法,表现更稳定。
文摘蛋白质二级结构预测问题,是生物信息学领域中最为重要的任务之一,历经三十多年的研究,已取得了一些进展,尤其是近来集成预测模型与混合预测模型的引入,为预测精度带来了一定程度的提高,然而其离从二级结构推导三级结构的目标,仍然存在很大差距。为了有效提高蛋白质二级结构预测精度,以KDTICM理论的扩展性研究与KDD*模型为基础,使用基于KDD*模型的关联分析蛋白质二级结构预测方法KAAPRO,提出一种基于支持度与可信度的复杂距离度量的CBA(classification based on association)算法,并以该算法为核心构建逐步求精、多层递阶的合成金字塔模型,该模型整体贯穿领域知识,并采用因果细胞自动机选择有效物化属性。在对偏alpha、beta型蛋白质的预测实验中,改进型CBA算法较好地完成了对结构特征不明显氨基酸的预测,获得了较优的预测效果。
基金Project(2012BAH18B05) supported by the Supporting Program of Ministry of Science and Technology of China
文摘Content extraction of HTML pages is the basis of the web page clustering and information retrieval,so it is necessary to eliminate cluttered information and very important to extract content of pages accurately.A novel and accurate solution for extracting content of HTML pages was proposed.First of all,the HTML page is parsed into DOM object and the IDs of all leaf nodes are generated.Secondly,the score of each leaf node is calculated and the score is adjusted according to the relationship with neighbors.Finally,the information blocks are found according to the definition,and a universal classification algorithm is used to identify the content blocks.The experimental results show that the algorithm can extract content effectively and accurately,and the recall rate and precision are 96.5% and 93.8%,respectively.