期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
文档挖掘与降维技术 被引量:13
1
作者 陈莉 焦李成 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第3期267-271,共5页
提出了基于虚拟数据库和分层数据库的文档挖掘的一般模型,讨论了用于降低输入空间维数的维削减技术,以提高挖掘效率、改善挖掘性能。实验结果表明文中的方法是可行的。
关键词 文档挖掘 降维 虚拟数据库 多层数据库
下载PDF
电子文档挖掘技术在电子邮件监控系统中的应用 被引量:1
2
作者 蔡立军 张大方 《计算机科学》 CSCD 北大核心 2003年第4期58-60,78,共4页
The e-mail monitoring system is a real-time tool to monitor the content of the e-mail. However, the characteristics (the hypersensinve reformation) in the e-mail extracted systematically by the existing e-mail monitor... The e-mail monitoring system is a real-time tool to monitor the content of the e-mail. However, the characteristics (the hypersensinve reformation) in the e-mail extracted systematically by the existing e-mail monitoring system can not sometimes perfectly reflect the practical conditions, meanwhile, the monitoring model established by it is not perfect enough. Therefore, it is easy to have wrong alarm or fail to alarm. According to such conditions, this paper discusses in great details the application of the electronic documentary mining technology in the e-mail monitoring system, and puts forward to adopt the structural model of the electronic documentary mining technology in the e-mail monitoring system. 展开更多
关键词 电子邮件 监控系统 电子文档挖掘技术 计算机网络 局域网 INTERNET
下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
3
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
下载PDF
基于频繁特征项集的文档聚类研究 被引量:1
4
作者 郑小慎 《计算机应用》 CSCD 北大核心 2006年第4期875-877,共3页
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的... 提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。 展开更多
关键词 频繁特征项集 文档聚类 文档挖掘
下载PDF
基于聚类分析策略的用户偏好挖掘 被引量:8
5
作者 刘远超 王晓龙 +1 位作者 刘秉权 钟彬彬 《计算机应用研究》 CSCD 北大核心 2005年第12期21-23,共3页
利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思... 利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。 展开更多
关键词 偏好挖掘:文档聚类 概念向量 Rocchio算法
下载PDF
WEB的数据挖掘 被引量:5
6
作者 潘卫东 《图书馆论坛》 CSSCI 北大核心 2004年第1期79-81,94,共4页
文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对WEB数据的复杂性和特殊性,WEB的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对WEB页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术... 文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对WEB数据的复杂性和特殊性,WEB的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对WEB页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。 展开更多
关键词 WEB 网络数据挖掘 半结构数据 XML 文档内容挖掘
下载PDF
Web的数据挖掘 被引量:1
7
作者 李健 《电脑知识与技术》 2006年第11期20-20,90,共2页
文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对Web数据的复杂性和特殊性。Web的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对Web页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XM... 文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对Web数据的复杂性和特殊性。Web的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对Web页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。 展开更多
关键词 WEB数据挖掘 文档内容挖掘 结构挖掘 使用挖掘 挖掘方法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部