期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
向量空间法中单词权重函数的分析和构造 被引量:126
1
作者 陆玉昌 鲁明羽 +1 位作者 李凡 周立柱 《计算机研究与发展》 EI CSCD 北大核心 2002年第10期1205-1210,共6页
文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector s... 文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector space model,VSM)——的实质 ,找出了其分类精度低的原因 ,提出了一种利用特征筛选中的评估函数代替 IDF函数进行权值调整的方法 ,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较 ,提出了一种构造新的高性能评估函数的新颖方法 . 展开更多
关键词 向量空间法 单词权重函数 分析 构造 向量空间模 权重调整 文本分类 数据挖掘 数据库
下载PDF
数据挖掘与知识发现 被引量:5
2
作者 陆玉昌 《中国计算机用户》 2000年第18期29-29,32,共2页
随着数据积累的增长,充分利用大量数据(即对数据进行分析来指导工作),并从大量数据中挖掘出有用的信息和知识,找出未知的规律,已成为人类急需解决的问题。本文就数据挖掘技术、知识发现系统这一热点问题阐述其成功的关键、面临的问题及... 随着数据积累的增长,充分利用大量数据(即对数据进行分析来指导工作),并从大量数据中挖掘出有用的信息和知识,找出未知的规律,已成为人类急需解决的问题。本文就数据挖掘技术、知识发现系统这一热点问题阐述其成功的关键、面临的问题及所采用的技术。 展开更多
关键词 数据库 数据挖掘 知识发现 数据类型
全文增补中
基于Agent的元搜索引擎的研究与设计 被引量:29
3
作者 陈俊杰 薛云 +2 位作者 宋翰涛 陆玉昌 余雪丽 《计算机工程与应用》 CSCD 北大核心 2003年第10期33-36,共4页
论文提出并介绍了一种基于Agent的元搜索引擎系统,旨在帮助Internet用户快速准确地搜索到符合自己需求的Internet信息。该系统采用元搜索引擎的结构,以Agent作为架构系统的基本组件,利用Agent的自治性和协作性来完成用户的个性化Interne... 论文提出并介绍了一种基于Agent的元搜索引擎系统,旨在帮助Internet用户快速准确地搜索到符合自己需求的Internet信息。该系统采用元搜索引擎的结构,以Agent作为架构系统的基本组件,利用Agent的自治性和协作性来完成用户的个性化Internet信息的搜索。在系统设计中,提出了基于用户喜好的成员搜索引擎的调度策略,能够提高系统的性能和易用性。最后分析了研究该系统的意义及课题尚待解决的问题。 展开更多
关键词 AGENT 元搜索引擎 设计 信息资源 信息检索 INTERNET
下载PDF
决策树采掘技术及发展趋势 被引量:35
4
作者 朱绍文 胡宏银 +3 位作者 王泉德 张大斌 黄浩 陆玉昌 《计算机工程》 EI CAS CSCD 北大核心 2000年第10期1-3,35,共4页
介绍了决策树采掘技术的主要内容和最新应用,对决策树的生长和剪枝算法进行了比较,指出了决策树采掘技术的研究方向.
关键词 知识发现 数据采掘 决策树 数据库
下载PDF
关联规则挖掘技术及发展动向 被引量:40
5
作者 朱绍文 王泉德 +2 位作者 黄浩 彭清涛 陆玉昌 《计算机工程》 EI CAS CSCD 北大核心 2000年第9期4-6,共3页
介绍了关联规则挖掘的主要内容和最新进展,对关联规则的各种挖掘算法进行比较,分析了关联规则挖掘的各种扩展和改进模型.
关键词 知识发现 数据挖掘 关联规则
下载PDF
负关联规则的研究 被引量:33
6
作者 董祥军 王淑静 +1 位作者 宋瀚涛 陆玉昌 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第11期978-981,共4页
传统的关联规则是A B的形式,将这种形式加以扩展,讨论了A B,A B,A B三种形式,给出了一种负关联规则中支持度与置信度简单有效的计算方法。讨论了同时研究正、负关联规则后出现的矛盾规则问题,提出了用相关性解决这些问题的方法和一种挖... 传统的关联规则是A B的形式,将这种形式加以扩展,讨论了A B,A B,A B三种形式,给出了一种负关联规则中支持度与置信度简单有效的计算方法。讨论了同时研究正、负关联规则后出现的矛盾规则问题,提出了用相关性解决这些问题的方法和一种挖掘频繁项集中正、负关联规则的算法,进行了算法的验证实验。实验结果表明,该算法能检测并删除相互矛盾的规则。 展开更多
关键词 负关联规则 频繁项集 支持度 置信度
下载PDF
Web挖掘研究综述 被引量:49
7
作者 涂承胜 鲁明羽 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2003年第10期90-93,共4页
论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的... 论文介绍了Web挖掘的概念,指出了Web挖掘中存在的问题,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用挖掘,针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究情况,同时展望了Web挖掘的未来研究方向。 展开更多
关键词 WEB INTERNET 搜索引擎 信息检索 数据库 数据处理 数据挖掘
下载PDF
贝叶斯分类算法在冠心病中医临床证型诊断中的应用 被引量:26
8
作者 孙亚男 宁士勇 +1 位作者 鲁明羽 陆玉昌 《计算机应用研究》 CSCD 北大核心 2006年第11期164-166,共3页
在中医药临床个体化诊疗信息平台的基础上,使用中医证型的辨证相关因素,利用信息增益算法进行辨证属性选择,并分别采用朴素贝叶斯和强属性集贝叶斯网络算法建立了中医冠心病临床证型诊断模型。实验结果表明该分类算法在中医冠心病临床... 在中医药临床个体化诊疗信息平台的基础上,使用中医证型的辨证相关因素,利用信息增益算法进行辨证属性选择,并分别采用朴素贝叶斯和强属性集贝叶斯网络算法建立了中医冠心病临床证型诊断模型。实验结果表明该分类算法在中医冠心病临床诊断模型中具有良好的分类性能。 展开更多
关键词 朴素贝叶斯 贝叶斯网络 数据挖掘 中医诊疗 冠心病
下载PDF
Boosting家族AdaBoost系列代表算法 被引量:27
9
作者 涂承胜 刁力力 +1 位作者 鲁明羽 陆玉昌 《计算机科学》 CSCD 北大核心 2003年第3期30-34,145,共6页
Boosting is one of the most representational ensemble prediction methods. It can be divided into two se-ries: Boost-by-majority and Adaboost. This paper briefly introduces the research status of Boosting and one of it... Boosting is one of the most representational ensemble prediction methods. It can be divided into two se-ries: Boost-by-majority and Adaboost. This paper briefly introduces the research status of Boosting and one of its seri-als-AdaBoost,analyzes the typical algorithms of AdaBoost. 展开更多
关键词 BOOSTING Adaboost.R算法 AdaBoost.oc算法 学习算法 ADABOOST算法
下载PDF
基于概念格的分类和关联规则的集成挖掘方法 被引量:64
10
作者 胡可云 陆玉昌 石纯一 《软件学报》 EI CSCD 北大核心 2000年第11期1478-1484,共7页
改进了一个 Bordat的建格算法 ,使之适合于集成挖掘的需要 ,进而提出一个从概念格上提取关联规则和分类规则的算法 ,实现了关联规则和分类规则的挖掘在概念格框架下的统一 .
关键词 分类 关联规则 数据挖掘 机器学习
下载PDF
文本挖掘及其关键技术与方法 被引量:42
11
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
下载PDF
用Boosting方法组合增强Stumps进行文本分类(英文) 被引量:15
12
作者 刁力力 胡可云 +1 位作者 陆玉昌 石纯一 《软件学报》 EI CSCD 北大核心 2002年第8期1361-1367,共7页
为提高文本分类的精度,Schapire和Singer尝试了一个用Boosting来组合仅有一个划分的简单决策树(Stumps)的方法.其基学习器的划分是由某个特定词项是否在待分类文档中出现决定的.这样的基学习器明显太弱,造成最后组合成的Boosting分类器... 为提高文本分类的精度,Schapire和Singer尝试了一个用Boosting来组合仅有一个划分的简单决策树(Stumps)的方法.其基学习器的划分是由某个特定词项是否在待分类文档中出现决定的.这样的基学习器明显太弱,造成最后组合成的Boosting分类器精度不够理想,而且需要的迭代次数很大,因而效率很低.针对这个问题,提出由文档中所有词项来决定基学习器划分以增强基学习器分类能力的方法.它把以VSM表示的文档与类代表向量之间的相似度和某特定阈值的大小关系作为基学习器划分的标准.同时,为提高算法的收敛速度,在类代表向量的计算过程中动态引入Boosting分配给各学习样本的权重.实验结果表明,这种方法提高了用Boosting组合Stump分类器进行文本分类的性能(精度和效率),而且问题规模越大,效果越明显. 展开更多
关键词 BOOSTING方法 文本分类 机器学习 Stumps分类器
下载PDF
文本分类中结合评估函数的TEF-WA权值调整技术 被引量:26
13
作者 唐焕玲 孙建涛 陆玉昌 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期47-53,共7页
文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整... 文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献.实验结果证明了TEF-WA权值调整技术在提高分类精度和降低算法的时间复杂度方面都是有效的. 展开更多
关键词 向量空间模型(VSM) 特征选择 权重调整 特征评估函数 文本分类
下载PDF
Web内容挖掘技术研究 被引量:23
14
作者 涂承胜 鲁明羽 陆玉昌 《计算机应用研究》 CSCD 北大核心 2003年第11期5-9,15,共6页
简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征... 简要介绍了Web挖掘的概念、分类以及其功能,阐述了Web挖掘与传统数据挖掘以及Web信息检索之间的关系。给出了Web内容挖掘的不同分类方法、文本以及多媒体文本数据挖掘的定义、分类与应用。重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等,讨论了多媒体文本分类挖掘方法。 展开更多
关键词 WEB挖掘 WEB内容挖掘 文本的分类 文本聚类 多媒体文本挖掘
下载PDF
数据挖掘与组合学习 被引量:18
15
作者 刁力力 胡可云 +1 位作者 陆玉昌 石纯一 《计算机科学》 CSCD 北大核心 2001年第7期73-78,共6页
Data-mining is a kind of solution for solving the problem of information exploding. Classification and prediction belong to the most fundamental tasks in data-mining field. Many experiments have showed that the result... Data-mining is a kind of solution for solving the problem of information exploding. Classification and prediction belong to the most fundamental tasks in data-mining field. Many experiments have showed that the results of ensemble of learning methods are generally better than those of single learning methods under most of the time. In the sense,it is of great value to introduce ensemble of learning methods to data mining. This paper introduces data mining and ensemble of learning methods respectively,along with the analysis and formulation about the role ensemble of learning methods can act in some important practicing aspects of data mining:Text mining,multi-media information mining and web mining. 展开更多
关键词 数据挖掘 数据库 知识发现 组合学习
下载PDF
贝叶斯学习、贝叶斯网络与数据采掘 被引量:34
16
作者 林士敏 田凤占 陆玉昌 《计算机科学》 CSCD 北大核心 2000年第10期69-72,共4页
自从50~60年代贝叶斯学派形成后,关于贝叶斯分析的研究久盛不衰。早在80年代,贝叶斯网络就成功地应用于专家系统,成为表示不确定性专家知识和推理的一种流行方法。90年代以来,贝叶斯学习一直是机器学习研究的重要方向。
关键词 贝叶斯学习 贝叶斯网络 数据采掘 机器学习
下载PDF
时态关联规则的研究 被引量:12
17
作者 董祥军 宋瀚涛 +1 位作者 姜合 陆玉昌 《计算机工程》 EI CAS CSCD 北大核心 2005年第15期24-26,共3页
由于时间是数据本身固有的因素,因此在挖掘关联规则时附加上某种时态约束会使规则能更好地描述客观现实情况,因而也会更有价值。该文从概化的角度给出一个挖掘时态关联规则的算法,并用商品的生命周期作为时间特征为例,介绍了具体挖掘过程。
关键词 时态约束 关联规则 支持度 置信度
下载PDF
用于数据采掘的贝叶斯分类器研究 被引量:30
18
作者 林士敏 田凤占 陆玉昌 《计算机科学》 CSCD 北大核心 2000年第10期73-76,共4页
所谓分类器是一个函数f(x),它给需要分类的实例x赋予类标签c,∈C(j=1,2,…,m),实例x由一组属性值a_1,…,a_n描述,C是类变量,取有限个值,可看成有限个元素的集合。进行分类首先要构造一个分类器。从预先分类的实例进行有导师学习并建立... 所谓分类器是一个函数f(x),它给需要分类的实例x赋予类标签c,∈C(j=1,2,…,m),实例x由一组属性值a_1,…,a_n描述,C是类变量,取有限个值,可看成有限个元素的集合。进行分类首先要构造一个分类器。从预先分类的实例进行有导师学习并建立分类器,是机器学习的中心问题之一。已有的分类器如决策树、决策表、神经网络、决策图和规则等。 展开更多
关键词 数据采掘 数据库 贝叶斯分类器 机器学习
下载PDF
多模块贝叶斯网络中推理的简化 被引量:12
19
作者 田凤占 张宏伟 +1 位作者 陆玉昌 石纯一 《计算机研究与发展》 EI CSCD 北大核心 2003年第8期1230-1237,共8页
多模块贝叶斯网络 (MSBN)引入了模块化和面向对象思想 ,是复杂大系统建模的有力工具 目前 ,如何简化MSBN中局部和全局推理的时空复杂度已成为影响其应用的关键问题 首先分析了用于局部贝叶斯网络推理的两类经典算法的时空复杂度 ,证... 多模块贝叶斯网络 (MSBN)引入了模块化和面向对象思想 ,是复杂大系统建模的有力工具 目前 ,如何简化MSBN中局部和全局推理的时空复杂度已成为影响其应用的关键问题 首先分析了用于局部贝叶斯网络推理的两类经典算法的时空复杂度 ,证明了它们本质上的一致性 ,并给出了统一的理论解释 ;进而用实验证明了影响推理复杂度的决定性因素是网络模型相应导出图的导出宽度 ,并指出了可以精确推理的贝叶斯网络族 最后 ,分析了降低MSBN全局推理复杂度的可行性 ,给出了简化MSBN全局推理的指导性原则 . 展开更多
关键词 贝叶斯网络 多模块贝叶斯网络 推理 复杂大系统
下载PDF
基于最小兴趣度的正、负关联规则挖掘 被引量:12
20
作者 董祥军 宋瀚涛 +1 位作者 姜合 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2004年第27期24-25,31,共3页
根据Piatetsky-Shapiro的主张,只有满足最小兴趣度条件约束的规则才是有兴趣的,论文将这一条件推广到了负关联规则,并将该条件进行了改进,使其能够对关联规则的相关性进行判断,然后在此基础上提出一个能同时挖掘正负关联规则的算法,实... 根据Piatetsky-Shapiro的主张,只有满足最小兴趣度条件约束的规则才是有兴趣的,论文将这一条件推广到了负关联规则,并将该条件进行了改进,使其能够对关联规则的相关性进行判断,然后在此基础上提出一个能同时挖掘正负关联规则的算法,实验表明该算法是非常有效的。 展开更多
关键词 负关联规则 最小兴趣度 相关性 置信度
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部