期刊文献+
共找到151篇文章
< 1 2 8 >
每页显示 20 50 100
一个办公文档类的逻辑文件系统的实现 被引量:1
1
作者 王红玲 费勤 +1 位作者 吕强 钱培德 《微电子学与计算机》 CSCD 北大核心 2007年第2期174-177,共4页
在简要介绍一个逻辑文件系统的设计基础上,实现了该系统的原型系统。该系统主要针对办公领域,以Oracle iFS为实现平台,采用JAVA和XML技术。它继承了语义文件系统基于内容访问的优点,并将访问方式拓宽到支持内容属性和内容结构的访问。
关键词 文件系统 内容访问 办公文档类
下载PDF
一个办公文档类的逻辑文件系统设计
2
作者 王红玲 费勤 吕强 《计算机工程与设计》 CSCD 北大核心 2007年第12期2775-2777,2781,共4页
针对当前办公系统所面临的有关海量数据存储和数据访问等若干问题,提出了一个基于数据库的逻辑文件系统的设计方案。该系统不仅能够存储海量数据,还继承了语义文件系统基于内容的访问方式,因而具有了语义访问功能。同时系统将访问方式... 针对当前办公系统所面临的有关海量数据存储和数据访问等若干问题,提出了一个基于数据库的逻辑文件系统的设计方案。该系统不仅能够存储海量数据,还继承了语义文件系统基于内容的访问方式,因而具有了语义访问功能。同时系统将访问方式拓宽到支持内容属性和内容结构的访问。 展开更多
关键词 内容访问 结构访问 文件系统 数据库 办公文档类
下载PDF
基于文档类密度的特征权重算法 被引量:1
3
作者 周鹏程 刘旭敏 徐维祥 《计算机应用研究》 CSCD 北大核心 2018年第11期3220-3223,共4页
面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算作为文本分类过程的基础,起到了至关重要的作用。为了提升文本分类的质量,针对传统特征权重算法的不足,提出了基于文档类密度的特征权重算法(TF-IDCD)。其中,文档类密... 面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算作为文本分类过程的基础,起到了至关重要的作用。为了提升文本分类的质量,针对传统特征权重算法的不足,提出了基于文档类密度的特征权重算法(TF-IDCD)。其中,文档类密度通过类内包含特征的文档数与类内总文档数的比值来度量。最后,在两个中文常见数据集上对五种算法进行实验对比。结果显示,提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。 展开更多
关键词 特征权重 文档类密度 文本分 支持向量机
下载PDF
《天文学进展》的LATEX文档类使用说明 被引量:1
4
作者 许云 王伟华 《天文学进展》 CSCD 北大核心 2007年第2期189-192,共4页
twxjz.cls是《天文学进展》刊物投稿的LATEX文档类,是在ctex宏包基础上编写而成,底层支持CCT和CJK两种中文LATEX系统。本文详细介绍如何是用twxjz.cls来准备《天文学进展》稿件,同时也是排版格式指南。
关键词 LATEX文档类 twxjz.cls 用户手册
下载PDF
融合密度和划分的文本聚类算法
5
作者 刘龙 刘新 +1 位作者 蔡林杰 唐朝 《计算机与数字工程》 2024年第1期178-183,共6页
文档聚类是聚类的经典应用,它是将相似的文档归为同一类,可以有效地组织、摘要和导航文本信息,也可以用来提高分类效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚类算法不适用于高维数据集,划分聚类算法中... 文档聚类是聚类的经典应用,它是将相似的文档归为同一类,可以有效地组织、摘要和导航文本信息,也可以用来提高分类效果。论文使用BERT模型处理文档向量化,将文档表示为高维向量。传统的密度聚类算法不适用于高维数据集,划分聚类算法中的K-均值算法可以有效地聚类文档,但是算法的性能非常依赖于初始中心点的选择。论文提出了一种新的融合密度和划分的文本聚类算法。首先,通过密度选择适当的聚类中心点集合,然后使用最远距离的想法逐渐选择初始类中心点,最后使用划分方法对数据集进行聚类。实验表明,该算法的聚类效果稳定,聚类效果良好。 展开更多
关键词 文档 BERT K-均值算法 密度 最远距离
下载PDF
一种结合主动学习的半监督文档聚类算法 被引量:30
6
作者 赵卫中 马慧芳 +1 位作者 李志清 史忠植 《软件学报》 EI CSCD 北大核心 2012年第6期1486-1499,共14页
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种... 半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 展开更多
关键词 半监督聚 文档 主动学习 成对约束
下载PDF
一种基于群体智能的Web文档聚类算法 被引量:41
7
作者 吴斌 傅伟鹏 +2 位作者 郑毅 刘少辉 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1429-1435,共7页
将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于... 将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于群体智能的聚类方法进行文档聚类 ,最后从平面上采用递归算法收集聚类结果 .为了改善算法的实用性 ,将原算法与 k均值算法相结合提出一种混合聚类算法 .通过实验比较 ,结果表明基于群体智能的 Web文档聚类算法具有较好的聚类特性 ,它能将与一个主题相关的 Web文档较完全而准确地聚成一类 . 展开更多
关键词 群体智能 WEB 文档算法 自组织聚 群体相似度 互联网 信息检索
下载PDF
一种基于LDA的潜在语义区划分及Web文档聚类算法 被引量:19
8
作者 刘振鹿 王大玲 +2 位作者 冯时 张一飞 方东昊 《中文信息学报》 CSCD 北大核心 2011年第1期60-65,70,共7页
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关... 该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。 展开更多
关键词 LDA 潜在语义 语义分布 文档
下载PDF
基于概率主题模型的文档聚类 被引量:23
9
作者 王李冬 魏宝刚 袁杰 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法... 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. 展开更多
关键词 主题模型 LDA模型 TC-LDA模型 文档
下载PDF
文档聚类中k-means算法的一种改进算法 被引量:29
10
作者 万小军 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2003年第2期102-103,157,共3页
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原... 介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。 展开更多
关键词 文档 K-MEANS算法 划分聚算法 数据库
下载PDF
基于模糊概念图的文档聚类及其在Web中的应用 被引量:12
11
作者 陈宁 陈安 +2 位作者 周龙骧 贾维嘉 罗三定 《软件学报》 EI CSCD 北大核心 2002年第8期1598-1605,共8页
随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于... 随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于模糊概念图的文档聚类算法,通过分析用户的浏览行为发现兴趣模式.在上述技术的基础上,给出了一种用户化的智能搜索系统的实现策略,通过分析概念间的关系和用户的兴趣模式,评价超链/文档和查询的相关程度,从而帮助用户得到更准确的信息. 展开更多
关键词 模糊概念图 文档 WEB 计算机网络 兴趣模式 用户化智能搜索
下载PDF
文档聚类综述 被引量:65
12
作者 刘远超 王晓龙 +1 位作者 徐志明 关毅 《中文信息学报》 CSCD 北大核心 2006年第3期55-62,共8页
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行... 聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。 展开更多
关键词 计算机应用 中文信息处理 综述 文档 降维 概念相关 算法
下载PDF
一种改进的k-means文档聚类初值选择算法 被引量:23
13
作者 刘远超 王晓龙 刘秉权 《高技术通讯》 CAS CSCD 北大核心 2006年第1期11-15,共5页
提出了一种改进的基于最小最大原则的k-means文档聚类初始值选择算法。该方法首先构造相似度矩阵,然后利用最小最大原则对相似度矩阵进行分析,从而选择初始聚点并自动确定聚类k值。实验结果表明利用该方法找到的k值比较接近真实值。
关键词 文档 K-MEANS 最小最大原则 相似度矩阵
下载PDF
基于加权余弦相似度的XML文档聚类研究 被引量:10
14
作者 李巍 孙涛 +2 位作者 陈建孝 罗梓恒 李雄飞 《吉林大学学报(信息科学版)》 CAS 2010年第1期68-76,共9页
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档... 在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。 展开更多
关键词 XML文档 加权余弦相似度 频繁变化结构
下载PDF
一种基于词共现的文档聚类算法 被引量:15
15
作者 常鹏 冯楠 马辉 《计算机工程》 CAS CSCD 2012年第2期213-214,220,共3页
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验... 为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。 展开更多
关键词 文档 文档模型 词共现 文档相似度 增益
下载PDF
基于关联规则的Web文档聚类算法 被引量:41
16
作者 宋擒豹 沈钧毅 《软件学报》 EI CSCD 北大核心 2002年第3期417-423,共7页
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看... Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 展开更多
关键词 产联规则 WWW Web文档算法 数据挖掘 数据库
下载PDF
一种基于本体的抽象度可调文档聚类 被引量:3
17
作者 王晓东 郭雷 +2 位作者 方俊 杨宁 邓涛 《计算机工程与应用》 CSCD 北大核心 2007年第29期172-175,共4页
文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体的抽象度可调文档聚类(Adjustable Text Clustering using Abstract Degreeof Concept,ATCADC)。该方... 文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体的抽象度可调文档聚类(Adjustable Text Clustering using Abstract Degreeof Concept,ATCADC)。该方法采用Wordnet对VSM特征词进行概念映射和消歧处理,利用生成的特征概念实现文档语义层面上的矢量描述,并在二次特征选择的基础上,完成合成聚类(AHC)。方法能够依据用户设定的概念抽象度,借助专门设计的语义中心矢量调节聚类,还可利用关键特征概念对聚类簇进行解释。实验结果证明,聚类精度高,聚类簇可解释,调节效果有效,能够满足用户不同概念抽象度层次上的聚类。 展开更多
关键词 本体 文档 概念 消歧 抽象度
下载PDF
一种基于SOM和K-means的文档聚类算法 被引量:16
18
作者 杨占华 杨燕 《计算机应用研究》 CSCD 北大核心 2006年第5期73-74,79,共3页
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K-means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。
关键词 自组织特征映射 K-MEANS 组合方法 文档
下载PDF
一种结构与内容相结合的XML文档聚类方法 被引量:4
19
作者 谌志群 王小华 王荣波 《情报学报》 CSSCI 北大核心 2009年第5期693-699,共7页
XML(可扩展标记语言)正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇。现有的大部... XML(可扩展标记语言)正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇。现有的大部分XML文档聚类是基于文档结构特征的。本文提出了一个新的结构与内容相结合的XML文档聚类方法。首先从文档中抽取构件向量,并把文档转换为向量化的表示。然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类。在DBLPXML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法。 展开更多
关键词 XML 文档 结构 内容 层次聚
下载PDF
基于BP神经网络的文档聚类研究 被引量:7
20
作者 田萱 刘希玉 孟强 《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页
1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之... 1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. 展开更多
关键词 Internet BP神经网络 文档 数据挖掘 信息检索系统 查准率 查全率
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部