期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
数据仓库中ETL技术的研究 被引量:118
1
作者 张宁 贾自艳 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第24期213-216,共4页
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL... 作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。 展开更多
关键词 数据仓库 ETL 数据库 数据模型 数据抽取 数据转换 数据清洗 数据装载
下载PDF
基于SMO的多层次文本分类法研究 被引量:3
2
作者 何建兵 何清 史忠植 《计算机工程与应用》 CSCD 北大核心 2006年第13期152-154,167,共4页
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组... 在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。 展开更多
关键词 文本分类 多层次文本分类 支持向量机 SMO算法 多层支持向量机
下载PDF
使用KNN算法的文本分类 被引量:98
3
作者 张宁 贾自艳 史忠植 《计算机工程》 EI CAS CSCD 北大核心 2005年第8期171-172,185,共3页
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。
关键词 数据挖掘 文本分类 KNN算法 向量空间模型
下载PDF
多元时间序列中跨事务关联规则分析的高效处理算法 被引量:9
4
作者 董泽坤 李辉 史忠植 《计算机科学》 CSCD 北大核心 2004年第3期108-111,共4页
用挖掘跨事务关联规则的方法分析多元时间序列,可以找到序列中不同采样点观察值之间相互影响的关系。本文为实现这一目的,提出一种新的分析方法:ES-Appiori。此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之... 用挖掘跨事务关联规则的方法分析多元时间序列,可以找到序列中不同采样点观察值之间相互影响的关系。本文为实现这一目的,提出一种新的分析方法:ES-Appiori。此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。 展开更多
关键词 数据挖掘 数据库 多元时间序列 关联规则 高效处理算法 ES-Apriori算法 证券市场 中国
下载PDF
运用文本领域的常识改善基于支撑向量机的文本分类器性能 被引量:16
5
作者 李辉 史忠植 许卓群 《中文信息学报》 CSCD 北大核心 2002年第2期7-13,共7页
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结... 本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。 展开更多
关键词 文本分类器 同语义文档子段替换 人工文档样本 相容性条件 支撑向量机 文本信息机理
下载PDF
一种概念空间自生成方法 被引量:8
6
作者 傅伟鹏 吴斌 +1 位作者 何清 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第7期63-65,88,共4页
文章提出一种自动生成概念空间的方法。首先通过SOM神经网络,对文本进行聚类,之后从结果中提取反映各类文本内容的概念,用于标注文本的类别,再通过模糊聚类进行概念自动抽象与归纳形成概念空间,用于文本的管理。SOM本身是无监督的学习方... 文章提出一种自动生成概念空间的方法。首先通过SOM神经网络,对文本进行聚类,之后从结果中提取反映各类文本内容的概念,用于标注文本的类别,再通过模糊聚类进行概念自动抽象与归纳形成概念空间,用于文本的管理。SOM本身是无监督的学习方式,在设定好参数后,经过训练自动生成文本空间与概念空间的映射图。相关试验和结果表明概念空间对文本有很好的分类管理功能,便于文本检索。 展开更多
关键词 概念空间 文本目录 自组织映射 自生成方法 信息处理 计算机
下载PDF
新闻视频结构化浏览与标注系统 被引量:5
7
作者 刘安安 李锦涛 +3 位作者 张勇东 唐胜 杨兆选 吴佳鹏 《计算机工程》 CAS CSCD 北大核心 2009年第1期33-35,共3页
阐述一种新颖的新闻视频结构化浏览和标注系统。应用基于时空切片分析的新闻主播检测方法和基于颜色直方图的镜头分割方法实现新闻视频的结构化。通过自动语音识别技术和特定语义概念模型的建立实现了对主播场景的文本信息标注和对新闻... 阐述一种新颖的新闻视频结构化浏览和标注系统。应用基于时空切片分析的新闻主播检测方法和基于颜色直方图的镜头分割方法实现新闻视频的结构化。通过自动语音识别技术和特定语义概念模型的建立实现了对主播场景的文本信息标注和对新闻故事镜头的语义概念标注。该系统有利于用户根据个人爱好进行新闻视频的浏览和编辑,有效实现新闻视频的索引和浏览。 展开更多
关键词 新闻 时空切片 语义概念 自动语音识别
下载PDF
一种新的海量数据分类方法 被引量:7
8
作者 任力安 何清 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第14期58-60,共3页
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分。文章则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数... 使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分。文章则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种新分类判断算法,不需作升维变换,不需要考虑使用何种核函数,而直接地解决非线性分类问题。对数据分类应用的结果说明:基于分类超曲面的分类法可以有效地解决非线性数据的分类问题,并能够提高分类效率和准确度。 展开更多
关键词 海量数据分类方法 支持向量机 Jordan曲线定量 机器学习 人工智能
下载PDF
分类超曲面方法在海量数据分类中的应用 被引量:1
9
作者 任力安 何清 史忠植 《计算机科学》 CSCD 北大核心 2002年第9期33-35,共3页
1引言 人的智慧中一个很重要的方面是从实例学习的能力,通过对已知事实的分析总结出规律,预测不能直接观测的事实.在人们对机器智能的研究中,用机器(计算机)来模拟这种学习能力,这就是我们所说的基于数据的机器学习问题,它是现代智能技... 1引言 人的智慧中一个很重要的方面是从实例学习的能力,通过对已知事实的分析总结出规律,预测不能直接观测的事实.在人们对机器智能的研究中,用机器(计算机)来模拟这种学习能力,这就是我们所说的基于数据的机器学习问题,它是现代智能技术中的重要方面,其研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测(分类). 展开更多
关键词 机器学习 分类超曲面方法 海量数据分类 学习算法 拓扑学
下载PDF
跨时间序列关联规则分析的高效处理算法 被引量:1
10
作者 董泽坤 史忠植 李辉 《计算机工程与应用》 CSCD 北大核心 2003年第25期196-198,共3页
多元金融时间序列之间是互相影响的。该文就跨时间序列的关联规则挖掘提出一种新方法:ES-Apriori,此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时... 多元金融时间序列之间是互相影响的。该文就跨时间序列的关联规则挖掘提出一种新方法:ES-Apriori,此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。 展开更多
关键词 关联规则 跨时间序列 ES—Apriori
下载PDF
多篇摘要的自动生成算法 被引量:1
11
作者 傅伟鹏 何清 +1 位作者 贸自艳 史忠植 《计算机科学》 CSCD 北大核心 2002年第5期85-88,共4页
1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务.但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找... 1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务.但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找到真正所需的信息.因此,信息社会对能够有效浓缩文本信息的网络自动文摘有着迫切的要求. 展开更多
关键词 自然语言理解 自动文摘 文本信息处理 摘要自动生成算法 机械文摘
下载PDF
HSC分类法及其在海量数据分类中的应用
12
作者 任力安 何清 史忠植 《电子学报》 EI CAS CSCD 北大核心 2002年第12期1870-1872,共3页
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分.本文则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类方法,简称HSC分类法,它是通过直接构造分类超曲面,根据样本点关于分... 使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分.本文则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类方法,简称HSC分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种新分类判断算法,与SVM方法相比,不需要考虑使用何种核函数,不需要做升维变换,直接解决非线性分类问题.对数据分类应用的结果说明:HSC可以有效地解决非线性数据的分类问题,并能够提高分类效率和准确度. 展开更多
关键词 支持向量机 分类超曲面 Jordan曲线定理 HSC分类法 人工智能 非线性可分数据
下载PDF
基于Hadoop云平台的并行数据挖掘方法 被引量:38
13
作者 杨来 史忠植 +1 位作者 梁帆 齐保元 《系统仿真学报》 CAS CSCD 北大核心 2013年第5期936-944,共9页
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出... 业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。 展开更多
关键词 并行数据挖掘 决策树算法 KD树算法 JPA 云计算
下载PDF
噪声消除与SMO算法收敛性
14
作者 何建兵 何清 史忠植 《计算机工程与应用》 CSCD 北大核心 2006年第24期160-163,共4页
近年来,随着序列最小优化分类算法SMO等一系列快速算法的推出,支持向量机在自动文本分类研究领域取得了很大的成功。大多数文本分类问题是线性可分的,使用线性核函数的SMO算法能够取得非常好的分类效果。但是文本向量是一种非常稀疏的向... 近年来,随着序列最小优化分类算法SMO等一系列快速算法的推出,支持向量机在自动文本分类研究领域取得了很大的成功。大多数文本分类问题是线性可分的,使用线性核函数的SMO算法能够取得非常好的分类效果。但是文本向量是一种非常稀疏的向量,采用线性核函数的SMO算法对噪声样本非常敏感,容易产生发散的问题。文章分析证明了噪声如何影响SMO算法收敛性。为了解决训练样本中噪声样本影响SMO算法收敛的问题,设计了一个消除噪声样本的算法,取得了非常好的效果。 展开更多
关键词 文本分类 支持向量机 SMO算法 噪声样本
下载PDF
基于超曲面的多类分类方法 被引量:1
15
作者 何清 史忠植 任力安 《系统工程理论与实践》 EI CSCD 北大核心 2003年第3期92-99,共8页
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的... 使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种全新分类判断算法 ,不需作升维变换 ,不需要考虑使用何种核函数 ,而直接地解决非线性分类问题 .对数据分类应用的结果说明 ,基于分类超曲面的多类分类法可以有效地解决非线性数据的分类问题 ,并能够提高分类效率和准确度 . 展开更多
关键词 支持向量机 分类超曲面 Jordan曲线定理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部