期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
数据仓库中ETL技术的研究
被引量:
118
1
作者
张宁
贾自艳
史忠植
《计算机工程与应用》
CSCD
北大核心
2002年第24期213-216,共4页
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL...
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。
展开更多
关键词
数据仓库
ETL
数据库
数据模型
数据抽取
数据转换
数据清洗
数据装载
下载PDF
职称材料
基于SMO的多层次文本分类法研究
被引量:
3
2
作者
何建兵
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2006年第13期152-154,167,共4页
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组...
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。
展开更多
关键词
文本分类
多层次文本分类
支持向量机
SMO算法
多层支持向量机
下载PDF
职称材料
使用KNN算法的文本分类
被引量:
98
3
作者
张宁
贾自艳
史忠植
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第8期171-172,185,共3页
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。
关键词
数据挖掘
文本分类
KNN算法
向量空间模型
下载PDF
职称材料
多元时间序列中跨事务关联规则分析的高效处理算法
被引量:
9
4
作者
董泽坤
李辉
史忠植
《计算机科学》
CSCD
北大核心
2004年第3期108-111,共4页
用挖掘跨事务关联规则的方法分析多元时间序列,可以找到序列中不同采样点观察值之间相互影响的关系。本文为实现这一目的,提出一种新的分析方法:ES-Appiori。此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之...
用挖掘跨事务关联规则的方法分析多元时间序列,可以找到序列中不同采样点观察值之间相互影响的关系。本文为实现这一目的,提出一种新的分析方法:ES-Appiori。此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。
展开更多
关键词
数据挖掘
数据库
多元时间序列
关联规则
高效处理算法
ES-Apriori算法
证券市场
中国
下载PDF
职称材料
运用文本领域的常识改善基于支撑向量机的文本分类器性能
被引量:
16
5
作者
李辉
史忠植
许卓群
《中文信息学报》
CSCD
北大核心
2002年第2期7-13,共7页
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结...
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。
展开更多
关键词
文本分类器
同语义文档子段替换
人工文档样本
相容性条件
支撑向量机
文本信息机理
下载PDF
职称材料
一种概念空间自生成方法
被引量:
8
6
作者
傅伟鹏
吴斌
+1 位作者
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2002年第7期63-65,88,共4页
文章提出一种自动生成概念空间的方法。首先通过SOM神经网络,对文本进行聚类,之后从结果中提取反映各类文本内容的概念,用于标注文本的类别,再通过模糊聚类进行概念自动抽象与归纳形成概念空间,用于文本的管理。SOM本身是无监督的学习方...
文章提出一种自动生成概念空间的方法。首先通过SOM神经网络,对文本进行聚类,之后从结果中提取反映各类文本内容的概念,用于标注文本的类别,再通过模糊聚类进行概念自动抽象与归纳形成概念空间,用于文本的管理。SOM本身是无监督的学习方式,在设定好参数后,经过训练自动生成文本空间与概念空间的映射图。相关试验和结果表明概念空间对文本有很好的分类管理功能,便于文本检索。
展开更多
关键词
概念空间
文本目录
自组织映射
自生成方法
信息处理
计算机
下载PDF
职称材料
新闻视频结构化浏览与标注系统
被引量:
5
7
作者
刘安安
李锦涛
+3 位作者
张勇东
唐胜
杨兆选
吴佳鹏
《计算机工程》
CAS
CSCD
北大核心
2009年第1期33-35,共3页
阐述一种新颖的新闻视频结构化浏览和标注系统。应用基于时空切片分析的新闻主播检测方法和基于颜色直方图的镜头分割方法实现新闻视频的结构化。通过自动语音识别技术和特定语义概念模型的建立实现了对主播场景的文本信息标注和对新闻...
阐述一种新颖的新闻视频结构化浏览和标注系统。应用基于时空切片分析的新闻主播检测方法和基于颜色直方图的镜头分割方法实现新闻视频的结构化。通过自动语音识别技术和特定语义概念模型的建立实现了对主播场景的文本信息标注和对新闻故事镜头的语义概念标注。该系统有利于用户根据个人爱好进行新闻视频的浏览和编辑,有效实现新闻视频的索引和浏览。
展开更多
关键词
新闻
时空切片
语义概念
自动语音识别
下载PDF
职称材料
一种新的海量数据分类方法
被引量:
7
8
作者
任力安
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2002年第14期58-60,共3页
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分。文章则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数...
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分。文章则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种新分类判断算法,不需作升维变换,不需要考虑使用何种核函数,而直接地解决非线性分类问题。对数据分类应用的结果说明:基于分类超曲面的分类法可以有效地解决非线性数据的分类问题,并能够提高分类效率和准确度。
展开更多
关键词
海量数据分类方法
支持向量机
Jordan曲线定量
机器学习
人工智能
下载PDF
职称材料
分类超曲面方法在海量数据分类中的应用
被引量:
1
9
作者
任力安
何清
史忠植
《计算机科学》
CSCD
北大核心
2002年第9期33-35,共3页
1引言 人的智慧中一个很重要的方面是从实例学习的能力,通过对已知事实的分析总结出规律,预测不能直接观测的事实.在人们对机器智能的研究中,用机器(计算机)来模拟这种学习能力,这就是我们所说的基于数据的机器学习问题,它是现代智能技...
1引言 人的智慧中一个很重要的方面是从实例学习的能力,通过对已知事实的分析总结出规律,预测不能直接观测的事实.在人们对机器智能的研究中,用机器(计算机)来模拟这种学习能力,这就是我们所说的基于数据的机器学习问题,它是现代智能技术中的重要方面,其研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测(分类).
展开更多
关键词
机器学习
分类超曲面方法
海量数据分类
学习算法
拓扑学
下载PDF
职称材料
跨时间序列关联规则分析的高效处理算法
被引量:
1
10
作者
董泽坤
史忠植
李辉
《计算机工程与应用》
CSCD
北大核心
2003年第25期196-198,共3页
多元金融时间序列之间是互相影响的。该文就跨时间序列的关联规则挖掘提出一种新方法:ES-Apriori,此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时...
多元金融时间序列之间是互相影响的。该文就跨时间序列的关联规则挖掘提出一种新方法:ES-Apriori,此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。
展开更多
关键词
关联规则
跨时间序列
ES—Apriori
下载PDF
职称材料
多篇摘要的自动生成算法
被引量:
1
11
作者
傅伟鹏
何清
+1 位作者
贸自艳
史忠植
《计算机科学》
CSCD
北大核心
2002年第5期85-88,共4页
1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务.但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找...
1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务.但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找到真正所需的信息.因此,信息社会对能够有效浓缩文本信息的网络自动文摘有着迫切的要求.
展开更多
关键词
自然语言理解
自动文摘
文本信息处理
摘要自动生成算法
机械文摘
下载PDF
职称材料
HSC分类法及其在海量数据分类中的应用
12
作者
任力安
何清
史忠植
《电子学报》
EI
CAS
CSCD
北大核心
2002年第12期1870-1872,共3页
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分.本文则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类方法,简称HSC分类法,它是通过直接构造分类超曲面,根据样本点关于分...
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分.本文则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类方法,简称HSC分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种新分类判断算法,与SVM方法相比,不需要考虑使用何种核函数,不需要做升维变换,直接解决非线性分类问题.对数据分类应用的结果说明:HSC可以有效地解决非线性数据的分类问题,并能够提高分类效率和准确度.
展开更多
关键词
支持向量机
分类超曲面
Jordan曲线定理
HSC分类法
人工智能
非线性可分数据
下载PDF
职称材料
基于Hadoop云平台的并行数据挖掘方法
被引量:
38
13
作者
杨来
史忠植
+1 位作者
梁帆
齐保元
《系统仿真学报》
CAS
CSCD
北大核心
2013年第5期936-944,共9页
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出...
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。
展开更多
关键词
并行数据挖掘
决策树算法
KD树算法
JPA
云计算
下载PDF
职称材料
噪声消除与SMO算法收敛性
14
作者
何建兵
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2006年第24期160-163,共4页
近年来,随着序列最小优化分类算法SMO等一系列快速算法的推出,支持向量机在自动文本分类研究领域取得了很大的成功。大多数文本分类问题是线性可分的,使用线性核函数的SMO算法能够取得非常好的分类效果。但是文本向量是一种非常稀疏的向...
近年来,随着序列最小优化分类算法SMO等一系列快速算法的推出,支持向量机在自动文本分类研究领域取得了很大的成功。大多数文本分类问题是线性可分的,使用线性核函数的SMO算法能够取得非常好的分类效果。但是文本向量是一种非常稀疏的向量,采用线性核函数的SMO算法对噪声样本非常敏感,容易产生发散的问题。文章分析证明了噪声如何影响SMO算法收敛性。为了解决训练样本中噪声样本影响SMO算法收敛的问题,设计了一个消除噪声样本的算法,取得了非常好的效果。
展开更多
关键词
文本分类
支持向量机
SMO算法
噪声样本
下载PDF
职称材料
基于超曲面的多类分类方法
被引量:
1
15
作者
何清
史忠植
任力安
《系统工程理论与实践》
EI
CSCD
北大核心
2003年第3期92-99,共8页
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的...
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种全新分类判断算法 ,不需作升维变换 ,不需要考虑使用何种核函数 ,而直接地解决非线性分类问题 .对数据分类应用的结果说明 ,基于分类超曲面的多类分类法可以有效地解决非线性数据的分类问题 ,并能够提高分类效率和准确度 .
展开更多
关键词
支持向量机
分类超曲面
Jordan曲线定理
原文传递
题名
数据仓库中ETL技术的研究
被引量:
118
1
作者
张宁
贾自艳
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程与应用》
CSCD
北大核心
2002年第24期213-216,共4页
基金
国家自然科学基金(编号:60173017
90104021)
北京自然科学基金(编号:4011003)
文摘
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。
关键词
数据仓库
ETL
数据库
数据模型
数据抽取
数据转换
数据清洗
数据装载
Keywords
Data warehouse,ETL,Data Extract,Data Transform,Data Cleansing,Data Loading
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于SMO的多层次文本分类法研究
被引量:
3
2
作者
何建兵
何清
史忠植
机构
中国科学院
研究
生院软件学院
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程与应用》
CSCD
北大核心
2006年第13期152-154,167,共4页
基金
国家自然科学基金资助项目(编号:60435010)
国家863高技术研究发展计划资助项目(编号:2003AA115220)
+1 种基金
中澳科技合作特别基金项目
北京市自然科学基金资助项目(编号:4052025)
文摘
在以往的自动文本分类研究中,大多比较流行的分类技术都是在一个层次上将文本分成几个类别。但随着信息检索的量越来越大,文本的种类将越来越多,仅仅通过一层对海量信息进行组织分类越来越不适合海量信息的检索工作,这种平坦式的分类组织难以进一步提高信息检索的速度。论文将SMO分类算法结合到文本分类研究中,通过构建多层支持向量机文本分类树,实现了基于SMO的多层次文本分类系统。
关键词
文本分类
多层次文本分类
支持向量机
SMO算法
多层支持向量机
Keywords
text categorization,multi-layer text categorization,SVM,SMO algorithm,multi-layer SVM
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
使用KNN算法的文本分类
被引量:
98
3
作者
张宁
贾自艳
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第8期171-172,185,共3页
基金
国家自然科学基金资助项目(60173017
9010402)
北京市自然科学基金资助项目(4011003)
文摘
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。
关键词
数据挖掘
文本分类
KNN算法
向量空间模型
Keywords
Data mining
Text categorization
KNN algorithm
VSM
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
多元时间序列中跨事务关联规则分析的高效处理算法
被引量:
9
4
作者
董泽坤
李辉
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所智能信息重点实验室
出处
《计算机科学》
CSCD
北大核心
2004年第3期108-111,共4页
文摘
用挖掘跨事务关联规则的方法分析多元时间序列,可以找到序列中不同采样点观察值之间相互影响的关系。本文为实现这一目的,提出一种新的分析方法:ES-Appiori。此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。
关键词
数据挖掘
数据库
多元时间序列
关联规则
高效处理算法
ES-Apriori算法
证券市场
中国
Keywords
Association rules, Inter-transaction, Multiple time series, ES-Apriori
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
F832.5 [经济管理—金融学]
下载PDF
职称材料
题名
运用文本领域的常识改善基于支撑向量机的文本分类器性能
被引量:
16
5
作者
李辉
史忠植
许卓群
机构
中科院计算技术研究所
智能
信息
处理
重点
实验室
北京大学
计算
机系
出处
《中文信息学报》
CSCD
北大核心
2002年第2期7-13,共7页
基金
国家自然科学基金 (6 0 0 730 19)
国家自然科学基金重大项目 (6 9790 0 80 )支持
文摘
本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明 。
关键词
文本分类器
同语义文档子段替换
人工文档样本
相容性条件
支撑向量机
文本信息机理
Keywords
Text Categorization
Synonymy Sub-Document Replacement
Artificial Document Sample
Compatibility Condition
Support Vector Machine
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种概念空间自生成方法
被引量:
8
6
作者
傅伟鹏
吴斌
何清
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程与应用》
CSCD
北大核心
2002年第7期63-65,88,共4页
基金
国家自然科学基金资助(编号:90104021
60173017)
北京市自然科学基金资助(编号:4011003)
文摘
文章提出一种自动生成概念空间的方法。首先通过SOM神经网络,对文本进行聚类,之后从结果中提取反映各类文本内容的概念,用于标注文本的类别,再通过模糊聚类进行概念自动抽象与归纳形成概念空间,用于文本的管理。SOM本身是无监督的学习方式,在设定好参数后,经过训练自动生成文本空间与概念空间的映射图。相关试验和结果表明概念空间对文本有很好的分类管理功能,便于文本检索。
关键词
概念空间
文本目录
自组织映射
自生成方法
信息处理
计算机
Keywords
concept space,text index,Self-Organizing Maps
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
新闻视频结构化浏览与标注系统
被引量:
5
7
作者
刘安安
李锦涛
张勇东
唐胜
杨兆选
吴佳鹏
机构
天津大学电子
信息
工程学院
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第1期33-35,共3页
基金
国家“973”计划基金资助项目(2007CB311100)
国家“863”计划基金资助项目(2007AA01Z416)
天津市自然科学基金资助重点项目(07JCZDJC05800)
文摘
阐述一种新颖的新闻视频结构化浏览和标注系统。应用基于时空切片分析的新闻主播检测方法和基于颜色直方图的镜头分割方法实现新闻视频的结构化。通过自动语音识别技术和特定语义概念模型的建立实现了对主播场景的文本信息标注和对新闻故事镜头的语义概念标注。该系统有利于用户根据个人爱好进行新闻视频的浏览和编辑,有效实现新闻视频的索引和浏览。
关键词
新闻
时空切片
语义概念
自动语音识别
Keywords
news
Spatio-Temporal Slice(STS)
semantic concept
Automatic Speech Recognition(ASR)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种新的海量数据分类方法
被引量:
7
8
作者
任力安
何清
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程与应用》
CSCD
北大核心
2002年第14期58-60,共3页
基金
国家自然科学基金项目资助(编号:60173017
90104021)
北京市自然科学基金项目资助(编号:4011003)
文摘
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分。文章则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种新分类判断算法,不需作升维变换,不需要考虑使用何种核函数,而直接地解决非线性分类问题。对数据分类应用的结果说明:基于分类超曲面的分类法可以有效地解决非线性数据的分类问题,并能够提高分类效率和准确度。
关键词
海量数据分类方法
支持向量机
Jordan曲线定量
机器学习
人工智能
Keywords
Support vector machine,Separating hyper surface,Jordan Curve Theorem
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
分类超曲面方法在海量数据分类中的应用
被引量:
1
9
作者
任力安
何清
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机科学》
CSCD
北大核心
2002年第9期33-35,共3页
基金
国家自然科学基金(批准号:60173017
90104021)
北京市自然科学基金(课题号4011003)
文摘
1引言 人的智慧中一个很重要的方面是从实例学习的能力,通过对已知事实的分析总结出规律,预测不能直接观测的事实.在人们对机器智能的研究中,用机器(计算机)来模拟这种学习能力,这就是我们所说的基于数据的机器学习问题,它是现代智能技术中的重要方面,其研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测(分类).
关键词
机器学习
分类超曲面方法
海量数据分类
学习算法
拓扑学
Keywords
Machine Learning t Separating hyper surface, Jordan curve theorem, Massive Data
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
O18 [理学—基础数学]
下载PDF
职称材料
题名
跨时间序列关联规则分析的高效处理算法
被引量:
1
10
作者
董泽坤
史忠植
李辉
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所智能信息重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2003年第25期196-198,共3页
基金
北京市自然科学基金"源于信息获取知识的知识挖掘理论与技术研究"(编号:4011003)
文摘
多元金融时间序列之间是互相影响的。该文就跨时间序列的关联规则挖掘提出一种新方法:ES-Apriori,此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。
关键词
关联规则
跨时间序列
ES—Apriori
Keywords
association rule,inter-time series,ES-Apriori
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
多篇摘要的自动生成算法
被引量:
1
11
作者
傅伟鹏
何清
贸自艳
史忠植
机构
中国科技大学
研究
生院
计算
机学部
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机科学》
CSCD
北大核心
2002年第5期85-88,共4页
文摘
1.引言 Internet的迅猛的发展,使人们能方便快捷地获取众多的信息和服务.但是,面对Internet上浩瀚纷繁的信息海洋,人们常常会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信息中;另一方面是信息的迷失,人们难于找到真正所需的信息.因此,信息社会对能够有效浓缩文本信息的网络自动文摘有着迫切的要求.
关键词
自然语言理解
自动文摘
文本信息处理
摘要自动生成算法
机械文摘
Keywords
Multi-abstract. Event, Space of concept
分类号
TP391 [自动化与计算机技术—计算机应用技术]
G353.2 [文化科学—情报学]
下载PDF
职称材料
题名
HSC分类法及其在海量数据分类中的应用
12
作者
任力安
何清
史忠植
机构
中科院计算技术研究所
智能
信息
处理
重点
实验室
中国科技大学
研究
生院
计算
机学部
出处
《电子学报》
EI
CAS
CSCD
北大核心
2002年第12期1870-1872,共3页
基金
国家自然科学基金(No.60173017
90104021)
北京市重点自然科学基金(No.4011003)
文摘
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分.本文则基于Jordan曲线定理,提出了一种通用的基于分类超曲面的分类方法,简称HSC分类法,它是通过直接构造分类超曲面,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种新分类判断算法,与SVM方法相比,不需要考虑使用何种核函数,不需要做升维变换,直接解决非线性分类问题.对数据分类应用的结果说明:HSC可以有效地解决非线性数据的分类问题,并能够提高分类效率和准确度.
关键词
支持向量机
分类超曲面
Jordan曲线定理
HSC分类法
人工智能
非线性可分数据
Keywords
support vector machine
separating hyper surface
Jordan Curve Theorem
HSC classification method
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于Hadoop云平台的并行数据挖掘方法
被引量:
38
13
作者
杨来
史忠植
梁帆
齐保元
机构
中科院计算技术研究所
智能
信息
处理
重点
实验室
中国科学院大学
出处
《系统仿真学报》
CAS
CSCD
北大核心
2013年第5期936-944,共9页
基金
国家自然科学基金(61035003
61072085
+4 种基金
61202212
60933004)
国家973项目(2013CB329502)
国家863高技术研究发展计划课题(2012AA011003)
国家科技支撑计划(2012BA107B02)
文摘
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。
关键词
并行数据挖掘
决策树算法
KD树算法
JPA
云计算
Keywords
parallel data mining
DB-tree
KD-tree
JPA
cloud computing
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
噪声消除与SMO算法收敛性
14
作者
何建兵
何清
史忠植
机构
中国科学院
研究
生院软件学院
中科院计算技术研究所
智能
信息
处理
重点
实验室
出处
《计算机工程与应用》
CSCD
北大核心
2006年第24期160-163,共4页
基金
国家自然科学基金资助项目(编号:60435010)
国家863高技术研究发展计划资助项目(编号:2003AA115220)
+1 种基金
中澳科技合作特别基金项目
北京市自然科学基金资助项目(编号:4052025)
文摘
近年来,随着序列最小优化分类算法SMO等一系列快速算法的推出,支持向量机在自动文本分类研究领域取得了很大的成功。大多数文本分类问题是线性可分的,使用线性核函数的SMO算法能够取得非常好的分类效果。但是文本向量是一种非常稀疏的向量,采用线性核函数的SMO算法对噪声样本非常敏感,容易产生发散的问题。文章分析证明了噪声如何影响SMO算法收敛性。为了解决训练样本中噪声样本影响SMO算法收敛的问题,设计了一个消除噪声样本的算法,取得了非常好的效果。
关键词
文本分类
支持向量机
SMO算法
噪声样本
Keywords
text categorlzation,SVM, SMO algorithm, noisy sample
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于超曲面的多类分类方法
被引量:
1
15
作者
何清
史忠植
任力安
机构
中科院计算技术研究所
智能
信息
处理
重点
实验室
中国科技大学
研究
生院
计算
机学部
出处
《系统工程理论与实践》
EI
CSCD
北大核心
2003年第3期92-99,共8页
基金
国家自然科学基金 ( 60 1 730 1 7
90 1 0 4 0 2 1
+1 种基金
60 0 730 1 9)
北京市自然科学基金 ( 4 0 1 1 0 0 3)
文摘
使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种全新分类判断算法 ,不需作升维变换 ,不需要考虑使用何种核函数 ,而直接地解决非线性分类问题 .对数据分类应用的结果说明 ,基于分类超曲面的多类分类法可以有效地解决非线性数据的分类问题 ,并能够提高分类效率和准确度 .
关键词
支持向量机
分类超曲面
Jordan曲线定理
Keywords
support vector machine
separating hyper surface
Jordan curve theorem
分类号
TP301-6 [自动化与计算机技术—计算机系统结构]
原文传递
题名
作者
出处
发文年
被引量
操作
1
数据仓库中ETL技术的研究
张宁
贾自艳
史忠植
《计算机工程与应用》
CSCD
北大核心
2002
118
下载PDF
职称材料
2
基于SMO的多层次文本分类法研究
何建兵
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2006
3
下载PDF
职称材料
3
使用KNN算法的文本分类
张宁
贾自艳
史忠植
《计算机工程》
EI
CAS
CSCD
北大核心
2005
98
下载PDF
职称材料
4
多元时间序列中跨事务关联规则分析的高效处理算法
董泽坤
李辉
史忠植
《计算机科学》
CSCD
北大核心
2004
9
下载PDF
职称材料
5
运用文本领域的常识改善基于支撑向量机的文本分类器性能
李辉
史忠植
许卓群
《中文信息学报》
CSCD
北大核心
2002
16
下载PDF
职称材料
6
一种概念空间自生成方法
傅伟鹏
吴斌
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2002
8
下载PDF
职称材料
7
新闻视频结构化浏览与标注系统
刘安安
李锦涛
张勇东
唐胜
杨兆选
吴佳鹏
《计算机工程》
CAS
CSCD
北大核心
2009
5
下载PDF
职称材料
8
一种新的海量数据分类方法
任力安
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2002
7
下载PDF
职称材料
9
分类超曲面方法在海量数据分类中的应用
任力安
何清
史忠植
《计算机科学》
CSCD
北大核心
2002
1
下载PDF
职称材料
10
跨时间序列关联规则分析的高效处理算法
董泽坤
史忠植
李辉
《计算机工程与应用》
CSCD
北大核心
2003
1
下载PDF
职称材料
11
多篇摘要的自动生成算法
傅伟鹏
何清
贸自艳
史忠植
《计算机科学》
CSCD
北大核心
2002
1
下载PDF
职称材料
12
HSC分类法及其在海量数据分类中的应用
任力安
何清
史忠植
《电子学报》
EI
CAS
CSCD
北大核心
2002
0
下载PDF
职称材料
13
基于Hadoop云平台的并行数据挖掘方法
杨来
史忠植
梁帆
齐保元
《系统仿真学报》
CAS
CSCD
北大核心
2013
38
下载PDF
职称材料
14
噪声消除与SMO算法收敛性
何建兵
何清
史忠植
《计算机工程与应用》
CSCD
北大核心
2006
0
下载PDF
职称材料
15
基于超曲面的多类分类方法
何清
史忠植
任力安
《系统工程理论与实践》
EI
CSCD
北大核心
2003
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部