期刊文献+
共找到127篇文章
< 1 2 7 >
每页显示 20 50 100
基于改进自注意力机制和表示学习的分层文档分类方法
1
作者 廖兴滨 钱杨舸 +1 位作者 王乾垒 秦小林 《计算机科学》 CSCD 北大核心 2024年第2期238-244,共7页
文档分类的一项基本工作是研究如何高效地表示输入特征,句子和文档向量表示也可以辅助自然语言处理的下游任务,如文本情感分析和数据泄露预防等。特征表示也逐渐成为文档分类问题的性能瓶颈和模型可解释性的关键之一。针对现有分层模型... 文档分类的一项基本工作是研究如何高效地表示输入特征,句子和文档向量表示也可以辅助自然语言处理的下游任务,如文本情感分析和数据泄露预防等。特征表示也逐渐成为文档分类问题的性能瓶颈和模型可解释性的关键之一。针对现有分层模型面临的大量重复计算以及可解释性缺乏的问题,提出了一种分层文档分类模型,并研究了句子和文档表示方法对文档分类问题的性能影响。所提模型集成了使用改进自注意力机制融合输入特征向量的句子编码器和文档编码器,形成了一个层次结构,以实现对文档级数据的分层处理,在简化计算的同时增强了模型的可解释性。与仅使用预训练语言模型的特殊标记向量作为句子表示的模型相比,所提模型在5个公开文档分类数据集上实现了平均4%的性能提升,比使用词向量矩阵的注意力输出均值的模型提高了2%。 展开更多
关键词 句子表示 文档表示 注意力机制 文档分类 模型可解释性
下载PDF
基于异质图神经网络预训练的多标签文档分类研究
2
作者 吴家伟 方全 +1 位作者 胡骏 钱胜胜 《计算机科学》 CSCD 北大核心 2024年第1期143-149,共7页
多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考... 多标签文档分类是一种将文档实例与相关标签相关联的技术,近年来受到越来越多研究者的关注。现有的多标签文档分类方法尝试探索文本之外的信息的融合,如文档元数据或标签结构。然而,这些方法要么简单地利用元数据的语义信息,要么没有考虑标签的长尾分布,因此忽略了文档及其元数据之间的高阶关系和标签的分布规律等信息,从而影响到多标签文档分类的准确性。因此,文中提出一种新的基于异质图神经网络预训练的多标签文档分类方法。该方法通过构造文档与其元数据的异质图,采用两种对比学习预训练方法捕获文档与其元数据之间的关系,并通过平衡标签长尾分布的损失函数来提高多标签文档分类的准确性。在基准数据集上的实验结果表明,所提方法的准确率比Transformer提高了8%,比BertXML提高了4.75%,比MATCH提高了1.3%。 展开更多
关键词 多标签文档分类 元数据 异质图神经网络 预训练 长尾分布
下载PDF
面向恶意PDF文档分类的对抗样本生成方法研究 被引量:1
3
作者 刘超 娄尘哲 +2 位作者 喻民 姜建国 黄伟庆 《信息安全学报》 CSCD 2023年第5期14-26,共13页
通过恶意文档来传播恶意软件在现代互联网中是非常普遍的,这也是众多机构面临的最高风险之一。PDF文档是全世界应用最广泛的文档类型,因此由其引发的攻击数不胜数。使用机器学习方法对恶意文档进行检测是流行且有效的途径,在面对攻击者... 通过恶意文档来传播恶意软件在现代互联网中是非常普遍的,这也是众多机构面临的最高风险之一。PDF文档是全世界应用最广泛的文档类型,因此由其引发的攻击数不胜数。使用机器学习方法对恶意文档进行检测是流行且有效的途径,在面对攻击者精心设计的样本时,机器学习分类器的鲁棒性有可能暴露一定的问题。在计算机视觉领域中,对抗性学习已经在许多场景下被证明是一种有效的提升分类器鲁棒性的方法。对于恶意文档检测而言,我们仍然缺少一种用于针对各种攻击场景生成对抗样本的综合性方法。在本文中,我们介绍了PDF文件格式的基础知识,以及有效的恶意PDF文档检测器和对抗样本生成技术。我们提出了一种恶意文档检测领域的对抗性学习模型来生成对抗样本,并使用生成的对抗样本研究了多检测器假设场景的检测效果(及逃避有效性)。该模型的关键操作为关联特征提取和特征修改,其中关联特征提取用于找到不同特征空间之间的关联,特征修改用于维持样本的稳定性。最后攻击算法利用基于动量迭代梯度的思想来提高生成对抗样本的成功率和效率。我们结合一些具有信服力的数据集,严格设置了实验环境和指标,之后进行了对抗样本攻击和鲁棒性提升测试。实验结果证明,该模型可以保持较高的对抗样本生成率和攻击成功率。此外,该模型可以应用于其他恶意软件检测器,并有助于检测器鲁棒性的优化。 展开更多
关键词 恶意PDF文档 对抗样本 文档分类 样本生成 鲁棒性
下载PDF
基于相邻字对信息的中文文档分类研究 被引量:2
4
作者 周水庚 俞红奇 +2 位作者 胡江滔 付辛 胡运发 《小型微型计算机系统》 CSCD 北大核心 2001年第4期462-466,共5页
本文首次提出利用相邻字对信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现中文文档分类的领域无关性和时间无关性 .分别利用 Naive Bayes和 k NN分类方法建立了基于相邻字对信息的中文文档分类系统 .
关键词 文档分类 属性选择 相邻宇对 kNN法 中文文档分类 信息处理
下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
5
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
下载PDF
基于扩展角分类神经网络的文档分类方法(英文) 被引量:12
6
作者 陈恩红 张振亚 +1 位作者 合源一幸 王煦法 《软件学报》 EI CSCD 北大核心 2002年第5期871-878,共8页
CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,... CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,本文意图扩展原始CC4神经网络,达到对文档有效分类的效果.为此,提出了一种基于MDS-NN的数据索引方法,将每一文档映射至k维空间数据点,并尽可能多地保持原始文档之间的距离信息.其次,通过将索引信息变换为CC4神经网络接受的0,1序列,实现对CC4神经网络的扩展,使其能够接受索引信息作为输入.实验结果表明对相互之间规模差别较大的文档,扩展CC4神经网络的性能优于原始CC4神经网络的性能.同时,扩展CC4神经网络的分类精度与文档索引方法有密切关系. 展开更多
关键词 分类 神经网络 文档分类 数据索引 距离信息
下载PDF
基于Ngram信息的中文文档分类研究 被引量:23
7
作者 周水庚 关佶红 +1 位作者 俞红奇 胡运发 《中文信息学报》 CSCD 北大核心 2001年第1期34-39,共6页
传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用... 传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法 ,实现了一个基于N gram信息的中文文档分类系统。 展开更多
关键词 N-GRAM信息 属性选择 KNN法 中文文档分类系统 领域无关性 时间无关性
下载PDF
一种直推式多标记文档分类方法 被引量:10
8
作者 姜远 佘俏俏 +1 位作者 黎铭 周志华 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1817-1823,共7页
真实世界的文档往往同时属于多个类别,因此,利用多标记学习技术进行文档分类是一个重要的研究方向.现有多标记文档分类方法需要利用大量有正确分类标记的文档才能获得好的分类性能,然而,在实际应用中往往只能得到少量的有标记文档作为... 真实世界的文档往往同时属于多个类别,因此,利用多标记学习技术进行文档分类是一个重要的研究方向.现有多标记文档分类方法需要利用大量有正确分类标记的文档才能获得好的分类性能,然而,在实际应用中往往只能得到少量的有标记文档作为分类所需的训练文档.出于利用未标记文档的想法,提出一种基于随机游走的直推式多标记文档分类方法,可以利用大量的未标记文档来辅助提高分类性能.实验结果表明,该方法的性能优于现有直推式多标记分类方法CNMF. 展开更多
关键词 文档分类 多标记学习 直推学习 未标记文档 随机游走
下载PDF
基于kNN的快速WEB文档分类 被引量:13
9
作者 李杨 曾海泉 +1 位作者 刘庆华 胡运发 《小型微型计算机系统》 CSCD 北大核心 2004年第4期725-729,共5页
根据测试文档在各个样本类中的分布情况 ,发现了基于 k NN分类的两个有助于减少大量计算的重要性质 ,在此基础上提出了两个重要算法 :排类算法和归类算法 ,从而构建了一个基于 k NN的快速 Web文档分类方法 .理论与实验表明 ,这种方法可... 根据测试文档在各个样本类中的分布情况 ,发现了基于 k NN分类的两个有助于减少大量计算的重要性质 ,在此基础上提出了两个重要算法 :排类算法和归类算法 ,从而构建了一个基于 k NN的快速 Web文档分类方法 .理论与实验表明 ,这种方法可以在不影响原有准确率的条件下 。 展开更多
关键词 文档分类 KNN 快速分类 排类算法
下载PDF
层次化中文文档分类 被引量:6
10
作者 袁时金 李荣陆 +1 位作者 周水庚 胡运发 《通信学报》 EI CSCD 北大核心 2004年第11期55-63,共9页
对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别... 对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。 展开更多
关键词 文档分类 属性选择 层次分类 分类
下载PDF
一种基于Tri-training的半监督多标记学习文档分类算法 被引量:8
11
作者 高嘉伟 梁吉业 +1 位作者 刘杨磊 李茹 《中文信息学报》 CSCD 北大核心 2015年第1期104-110,共7页
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本... 多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tritraining的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。 展开更多
关键词 半监督学习 多标记学习 文档分类
下载PDF
基于Rough集潜在语义索引的Web文档分类 被引量:7
12
作者 何明 冯博琴 傅向华 《计算机工程》 CAS CSCD 北大核心 2004年第13期3-5,共3页
Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约... Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类 方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类 规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。 展开更多
关键词 粗糙集 潜在语义索引 WEB文档分类 信息过滤 信息检索
下载PDF
基于流形学习和SVM的Web文档分类算法 被引量:14
13
作者 王自强 钱旭 《计算机工程》 CAS CSCD 北大核心 2009年第15期38-40,共3页
为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规... 为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规则的优化SVM进行分类预测。实验结果表明该算法以较少的运行时间获得更高的分类准确率。 展开更多
关键词 文档分类 流形学习 支持向量机
下载PDF
基于主动学习的文档分类 被引量:5
14
作者 覃刚力 黄科 杨家本 《计算机科学》 CSCD 北大核心 2003年第10期45-48,共4页
1引言 随着Internet快速普及和发展,使得网络上的电子文档数量激增.用户在享受它所提供的大量信息的同时,也越来越感到被庞大复杂的信息所淹没.然而网络上的文档数据并不是被有组织地管理,而仅仅是一个大的无序数据集合.
关键词 机器学习 主动学习 文档分类算法 特征提取
下载PDF
基于关联规则的Web文档分类 被引量:8
15
作者 马光志 张生庭 《计算机工程与设计》 CSCD 北大核心 2005年第9期2515-2518,共4页
在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来。有鉴于此,论文提出一种基于关联规则的Web文档分类方法。该方法采用事务概念,主要考虑两... 在现有的Web文档分类器中,有的分类器产生比较精确的分类结果,有的分类器产生更易解释的分类模型,但还没有分类器可以将两个方面的优点结合起来。有鉴于此,论文提出一种基于关联规则的Web文档分类方法。该方法采用事务概念,主要考虑两方面的问题:①在文档训练集中发现最优的词条关联规则;②用这些规则构建一个Web文档分类器。试验表明该分类器性能良好,训练速度快,产生的规则易于被人理解,而且容易更新和调整。 展开更多
关键词 WEB文档分类 文本分类 关联规则
下载PDF
基于单类别文档分类的主题爬虫 被引量:3
16
作者 方加沛 黄战 《计算机工程与应用》 CSCD 北大核心 2010年第16期63-66,共4页
主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对... 主题爬虫设计中关于主题的确立可以采用手工设置关键词集的方法也可以采用构造分类器的方法。前者易于实现,但是依赖于专家的经验,具有关键词缺漏和权值量化不精确的缺点;而后者的主要缺点在于难以获取具有代表性的反例训练样本。针对上述情况,提出了一种基于单类别文档分类的主题爬虫,同时还将分类作用于超链接的anchor text。实验结果充分证明了该主题爬虫的可行性。 展开更多
关键词 搜索引擎 主题爬虫 单类别文档分类 信息提取
下载PDF
无需词典支持和切词处理的中文文档分类 被引量:1
17
作者 周水庚 关佶红 胡运发 《高技术通讯》 EI CAS CSCD 2001年第3期31-35,共5页
利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
关键词 中文文档分类 N-gram信息 属性选择 贝叶斯分类 kNN法
下载PDF
基于Fisher线性判别式的层次文档分类 被引量:1
18
作者 徐敏 张丽萍 朱梧槚 《南京理工大学学报》 EI CAS CSCD 北大核心 2005年第4期460-463,共4页
将文档按照主题进行层次分类,利用Fisher线性判别式的思想来提取每一类的正特征词和负特征词,给出基于Fisher线性判别式的层次文档分类算法(HDCF)。HDCF不仅克服一般层次分类算法中假定特征词之间必须满足独立性的条件,而且能处理一个... 将文档按照主题进行层次分类,利用Fisher线性判别式的思想来提取每一类的正特征词和负特征词,给出基于Fisher线性判别式的层次文档分类算法(HDCF)。HDCF不仅克服一般层次分类算法中假定特征词之间必须满足独立性的条件,而且能处理一个文档涉及多个类的分类问题。在实验中,采用召全率和准确率2个指标与其它算法进行比较,结果表明:HDCF的效果好于其它算法。 展开更多
关键词 特征选择 正特征词 负特征词 Fisher线性判别式 层次文档分类
下载PDF
工程项目的文档分类与编码体系 被引量:8
19
作者 卢勇 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1364-1368,共5页
统一的文档分类与编码体系是计算机辅助工程建设的基础.为此首先从工程管理的角度出发,建立工程项目的统一的文档分类,然后设计其相应的文档编码,在结合项目结构编码体系之后,进一步提出扩展的文档编码体系.
关键词 文档分类 文档编码体系 扩展的文档编码体系
下载PDF
基于变精度粗糙集模型的Web文档分类方法 被引量:2
20
作者 王效岳 白如江 《现代图书情报技术》 CSSCI 北大核心 2005年第12期51-54,共4页
针对变精度粗糙集模型进行研究,提出了利用变精度粗糙集模型进行W eb文档的算法。通过引入阈值β,使得用户可以通过调整β的值,实现对W eb文档的不同级别的分类。试验结果表明,该算法在大大降低关键词向量维数的基础上,在保证分类准确... 针对变精度粗糙集模型进行研究,提出了利用变精度粗糙集模型进行W eb文档的算法。通过引入阈值β,使得用户可以通过调整β的值,实现对W eb文档的不同级别的分类。试验结果表明,该算法在大大降低关键词向量维数的基础上,在保证分类准确度的前提下,有效的增加了分类的灵活性。 展开更多
关键词 变精度粗糙集 属性约简 文档分类
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部