期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
基于图神经网络的多层银企网络融合研究
1
作者 李珊 王林娜 +1 位作者 高丁佳 宣海波 《计算机与现代化》 2024年第5期27-32,共6页
针对金融行业内潜在系统性风险难以精准识别问题,基于直接系统性风险传染渠道的借贷数据以及间接渠道的互联网文本信息,构建多层银企网络,并利用图卷积神经网络(GCN)设计多层银企网络融合模型,根据融合网络量化评估29家银行和75家房地... 针对金融行业内潜在系统性风险难以精准识别问题,基于直接系统性风险传染渠道的借贷数据以及间接渠道的互联网文本信息,构建多层银企网络,并利用图卷积神经网络(GCN)设计多层银企网络融合模型,根据融合网络量化评估29家银行和75家房地产机构的不同渠道系统性风险传染过程。实验结果表明,在多层金融网络融合任务上,本文融合模型的准确率达到0.8559,优于对比模型。融合网络分析表明,多层网络共同冲击下的银企系统性风险传染能力明显大于单一或者2层网络的系统性风险,且基于间接渠道的企业间网络系统性风险更明显。金融审慎监管应该更多关注文本数据、深度学习等技术对于整合庞大金融资源的能力和有效提高风险监测预警的能力。 展开更多
关键词 多层网络融合 系统性风险传染 图卷积神经网络 文本分析
下载PDF
基于BERT-SELFATT-CNN模型的垃圾邮件分类方法
2
作者 龚红仿 赵富荣 罗容容 《湖南文理学院学报(自然科学版)》 CAS 2024年第2期14-18,70,共6页
针对传统垃圾邮件分类方法中使用静态词向量不能解决一词多义、长序列信息特征提取不足等问题,提出了一种基于BERT-SELFATT-CNN模型的垃圾邮件分类方法。使用动态文本表示方法BERT对邮件内容进行预训练,并生成带有上下语义信息的词向量... 针对传统垃圾邮件分类方法中使用静态词向量不能解决一词多义、长序列信息特征提取不足等问题,提出了一种基于BERT-SELFATT-CNN模型的垃圾邮件分类方法。使用动态文本表示方法BERT对邮件内容进行预训练,并生成带有上下语义信息的词向量,经过能够并行计算的自注意力机制层计算词与词之间的相似度去挖掘句子长距离信息,将生成的隐藏层向量输入到CNN网络提取向量局部特征。在中文垃圾邮件数据集上与已有模型进行对比实验,结果表明该模型在精确度、召回率和F1值上均有提高,模型训练速度也得到提升。 展开更多
关键词 垃圾邮件 BERT 自注意力层 CNN 文本分类
下载PDF
基于多层动态融合的中文医疗命名实体识别
3
作者 林令德 刘纳 +2 位作者 徐贞顺 李昂 李晨 《计算机工程与应用》 CSCD 北大核心 2024年第15期161-169,共9页
针对基于预训练模型的命名实体识别方法仅使用了预训练模型最后一层隐状态,忽略了各Transformer层对应不同文本信息的问题,提出一种预训练模型多层动态融合方法。采用预训练模型进行特征提取,获得模型各层隐状态序列;通过多层动态融合... 针对基于预训练模型的命名实体识别方法仅使用了预训练模型最后一层隐状态,忽略了各Transformer层对应不同文本信息的问题,提出一种预训练模型多层动态融合方法。采用预训练模型进行特征提取,获得模型各层隐状态序列;通过多层动态融合方法对各层隐状态信息进行结合,作为预训练模型最终输出;采用条件随机场对序列进行解码,完成序列标注。多层动态融合方法可以充分利用预训练模型各层知识,使结果中包含丰富的句法、语义等特征信息,提升模型在任务中的表示能力,增强模型灵活性。通过对医疗文本数据集CMeEE、CCKS2017与通用领域数据集Resume、Weibo进行实验验证,结果证明,加入多层动态融合方法可以有效地提升命名实体识别效果。 展开更多
关键词 医疗文本挖掘 命名实体识别 预训练语言模型 多层动态融合
下载PDF
融合角色心理画像的心理健康文本匹配模型
4
作者 赵芸 刘德喜 +2 位作者 万常选 刘喜平 廖国琼 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1812-1824,共13页
全球心理健康问题形势严峻,由于心理健康服务的从业人员不足,遭受心理健康困扰的人并不总是能获得专业的心理健康服务.检索式心理健康社区自动问答可以快速地为需要心理健康服务的人提供相应的信息自助服务.与传统检索式社区问答中的文... 全球心理健康问题形势严峻,由于心理健康服务的从业人员不足,遭受心理健康困扰的人并不总是能获得专业的心理健康服务.检索式心理健康社区自动问答可以快速地为需要心理健康服务的人提供相应的信息自助服务.与传统检索式社区问答中的文本匹配不同,在匹配支持帖和求助帖时,需要考虑2种不同层面的匹配准则:语义层面和心理层面.为了解决该问题,提出融合角色心理画像的2阶段文本匹配模型(two-stage text matching model integrating characters’mental portrait,T2CMP),该模型引入心理特征用于构建角色心理画像,从而辅助模型理解文本心理层面的内容和匹配关系.同时为了提升检索效率以及减少大量负样例带来的噪声问题,将文本匹配任务拆分为2阶段的序列型子任务.首先针对每条求助帖,使用基于语义的筛选模型甄别出候选支持帖;然后依据用户的角色心理画像,使用多层注意力机制将其与语义信息有效融合,提高模型的总体效果.在MHCQA数据集上的实验结果显示,T2CMP比现有优秀算法拥有更高的F1值. 展开更多
关键词 文本匹配 2阶段模型 角色心理健康画像 多层注意力机制 心理健康信息自助服务
下载PDF
短文本新闻标题生成方法
5
作者 赵明 《电子科技》 2024年第9期87-94,共8页
当今新闻具有文本短、发布频繁、时效性强等特点,一个媒体账号一天内发布数十条新闻。为大量新闻制定适用且有吸引力的标题已经成为媒体工作者的一项主要工作内容。媒体工作者需要一个自动生成短文本标题的系统来缓解工作压力。为解决... 当今新闻具有文本短、发布频繁、时效性强等特点,一个媒体账号一天内发布数十条新闻。为大量新闻制定适用且有吸引力的标题已经成为媒体工作者的一项主要工作内容。媒体工作者需要一个自动生成短文本标题的系统来缓解工作压力。为解决该问题,文中提出了一种短文本新闻标题生成模型。该模型采用序列到序列结构,在编码器和解码器分别应用预训练语言模型和分层自注意力解码器。为了使生成标题包含原始新闻的关键信息,提出一种基于LCSTS数据集和Weibo4数据集的分阶段训练方法,并使模型分别从这两个数据集学习提取关键新闻信息和构建风格化表达,使模型生成标题能够准确表达新闻的核心内容从而吸引读者。 展开更多
关键词 新闻标题生成 预训练语言模型 分层自注意力解码器 编码器 文本提取 文本生成
下载PDF
GM-FastText多通道词向量短文本分类模型 被引量:1
6
作者 白子诚 周艳玲 张龑 《计算机系统应用》 2022年第9期403-408,共6页
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybri... 在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在FastText多通道词向量和GM混合结构网络的作用下,多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能. 展开更多
关键词 短文本分类 快速文本 词向量 多层感知机 多特征
下载PDF
融合CNN-SAM与GAT的多标签文本分类模型 被引量:5
7
作者 杨春霞 马文文 +1 位作者 陈启岗 桂强 《计算机工程与应用》 CSCD 北大核心 2023年第5期106-114,共9页
现有基于神经网络的多标签文本分类研究方法存在两方面不足,一是不能全面提取文本信息特征,二是很少从图结构数据中挖掘全局标签之间的关联性。针对以上两个问题,提出融合卷积神经网络-自注意力机制(CNNSAM)与图注意力网络(GAT)的多标... 现有基于神经网络的多标签文本分类研究方法存在两方面不足,一是不能全面提取文本信息特征,二是很少从图结构数据中挖掘全局标签之间的关联性。针对以上两个问题,提出融合卷积神经网络-自注意力机制(CNNSAM)与图注意力网络(GAT)的多标签文本分类模型(CS-GAT)。该模型利用多层卷积神经网络与自注意力机制充分提取文本局部与全局信息并进行融合,得到更为全面的特征向量表示;同时将不同文本标签之间的关联性转变为具有全局信息的边加权图,利用多层图注意力机制自动学习不同标签之间的关联程度,将其与文本上下文语义信息进行交互,获取具有文本语义联系的全局标签信息表示;使用自适应融合策略进一步提取两者特征信息,提高模型的泛化能力。在AAPD、RCV1-V2与EUR-Lex三个公开英文数据集上的实验结果表明,该模型所达到的多标签分类效果明显优于其他主流基线模型。 展开更多
关键词 多标签文本分类 多层卷积神经网络 自注意力机制 多头图注意力机制
下载PDF
基于多层语义融合的结构化深度文本聚类模型 被引量:2
8
作者 马胜位 黄瑞章 +1 位作者 任丽娜 林川 《计算机应用》 CSCD 北大核心 2023年第8期2364-2369,共6页
近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针... 近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针对以上问题,提出了一种基于多层语义融合的结构化深度文本聚类模型(SDCMS)。该模型利用GNN将结构信息集成到解码器中,通过逐层语义补充增强了文本数据的表示,并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract这5个真实数据集上进行实验的结果表明,与目前最优的注意力驱动的图形聚类网络(AGCN)模型相比,SDCMS在准确率、归一化互信息(NMI)和平均兰德指数(ARI)上分别最多提升了5.853%、9.922%和8.142%。 展开更多
关键词 深度文本聚类 逐层语义增强 文本语义信息 图神经网络 自监督学习
下载PDF
基于融合LDA与双层CNN的文本分类研究
9
作者 杨雳 刘胜全 +1 位作者 贾李睿智 解舒淇 《电子测量技术》 北大核心 2023年第7期1-6,共6页
针对基于主题的文本分类任务存在的主题特征表征能力不足、数据高维导致的特征维度高等问题,本文对输入的特征表示与卷积神经网络结构(CNN)做出了改进。在特征表示时提出了使用LDA模型计算逆主题空间频率从而得到文本的主题向量矩阵,降... 针对基于主题的文本分类任务存在的主题特征表征能力不足、数据高维导致的特征维度高等问题,本文对输入的特征表示与卷积神经网络结构(CNN)做出了改进。在特征表示时提出了使用LDA模型计算逆主题空间频率从而得到文本的主题向量矩阵,降低了噪声主题的特征表达,增强了关键主题的权重;分别将文本的主题向量矩阵与词向量矩阵作为CNN模型的输入。提出了双层CNN网络结构,在每层CNN的池化层后增加一层多通道池化层,以融合每层CNN的池化结果,降低特征维度的同时获取更多的局部显著特征;最后使用Attention机制对融合的特征进行加权后输入到全连接层进行分类。由实验结果可知,改进的模型在文本分类任务上的准确率、召回率均在98%以上,F1值较基准实验提高了近6%。 展开更多
关键词 LDA 双层CNN ATTENTION 文本分类
下载PDF
融合BERT、双向长短记忆网络和条件随机场的电力设备缺陷文本实体抽取 被引量:7
10
作者 陈鹏 邰彬 +3 位作者 石英 金杨 孔力 汪进锋 《电网技术》 EI CSCD 北大核心 2023年第10期4367-4375,共9页
随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整... 随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。 展开更多
关键词 电力设备缺陷文本 命名实体抽取 改进BERT算法 语义信息 输出层 局部最优
下载PDF
基于领域本体的SOM文本逐层聚类方法 被引量:8
11
作者 朱恒民 马静 黄卫东 《情报学报》 CSSCI 北大核心 2008年第6期845-850,共6页
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法。该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量.的维数,提高了聚类效率。基于... 为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法。该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量.的维数,提高了聚类效率。基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集。通过无人机领域的Web文本聚类实验,验证了该方法的有效性。 展开更多
关键词 领域本体 SOM 文本聚类 逐层聚类 文本挖掘
下载PDF
利用虚词结构变换实现的动态分层文本水印 被引量:2
12
作者 赵敏之 向华政 《计算机工程与应用》 CSCD 北大核心 2011年第8期93-95,共3页
为了提高文本数字水印的鲁棒性,需确定具体在载体的哪些部位进行映射层替换,根据虚词结构变换规则提出了一种定位层分层的思想。通过将中文文本按照虚词规则分组,再利用密钥对规则进行随机组合,将文本根据可嵌入水印的关键字动态分层,... 为了提高文本数字水印的鲁棒性,需确定具体在载体的哪些部位进行映射层替换,根据虚词结构变换规则提出了一种定位层分层的思想。通过将中文文本按照虚词规则分组,再利用密钥对规则进行随机组合,将文本根据可嵌入水印的关键字动态分层,使文本形成一个多层的立体空间,在各层之间嵌入相关的数据,从而使嵌入的数据形成一个立体构架,增强了水印的抗攻击能力。 展开更多
关键词 文本数字水印 虚词 语法规则 文本分层 鲁棒性
下载PDF
基于网页文本结构的网页去重 被引量:13
13
作者 魏丽霞 郑家恒 《计算机应用》 CSCD 北大核心 2007年第11期2854-2856,共3页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 展开更多
关键词 层次指纹 文本结构 网页去重
下载PDF
声母发声特点参数的提取及其提高说话人确认鲁棒性的研究 被引量:2
14
作者 许东星 戴蓓蒨 +1 位作者 许敏强 刘青松 《信号处理》 CSCD 北大核心 2009年第9期1479-1483,共5页
本文针对语音信号中的声母语音更易受环境噪声污染而导致识别性能下降的情况,根据普通话声母发声位置特点,提出了一种对发声位置状态描述的发声特点参数(Articulatory Feature,简称AF),采用特征空间映射方法,由短时倒谱参数(MFCC)经MLP... 本文针对语音信号中的声母语音更易受环境噪声污染而导致识别性能下降的情况,根据普通话声母发声位置特点,提出了一种对发声位置状态描述的发声特点参数(Articulatory Feature,简称AF),采用特征空间映射方法,由短时倒谱参数(MFCC)经MLP特征映射网络映射获取,MLP特征映射网络则由语言学先验知识事先训练得到。AF参数具有良好的噪声鲁棒性,并与MFCC参数具有互补性,由MFCC和AF组成的联合特征参数(MFCC-AF)可使系统确认性能的鲁棒性有明显的改善。在微软数据库上的基于GMM-UBM模型的与文本无关的说话人确认实验表明,对于声母语音,采用MFCC-AF参数使系统的鲁棒性有明显的改善:在干净、25dB、20dB条件下,较只采用MFCC参数的系统的EER分别相对降低了5.4%,14.12%,20.27%。 展开更多
关键词 发声特点 多层感知器 文本无关 说话人确认
下载PDF
基于多隐层极限学习机的文本分类方法 被引量:4
15
作者 冀俊忠 庞皓明 +1 位作者 杨翠翠 刘金铎 《北京工业大学学报》 CAS CSCD 北大核心 2019年第6期534-545,共12页
针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取... 针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取出高层文本特征并通过最小二乘的方法对文本数据进行分类.与多个算法的实验对比表明,该算法在20newsgroup、Reuters和复旦大学中文语料库这3个数据集上都具有良好的分类性能. 展开更多
关键词 文本分类 高维文本 多隐层极限学习机 极限学习机自编码器 特征映射 神经网络
下载PDF
分级聚类与平面划分结合方法在网页分类中的应用 被引量:2
16
作者 王丽侠 房福亭 《计算机工程与应用》 CSCD 北大核心 2004年第35期139-141,204,共4页
文章研究分级聚类与平面划分结合方法在网页分类中的应用。阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题。K-均值算法受... 文章研究分级聚类与平面划分结合方法在网页分类中的应用。阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题。K-均值算法受初始聚类中心的选择影响较大,对于不规则分布的样本往往聚类的效果不佳。文章考虑利用少数样本和分级聚类算法进行样本集合的初始聚类中心的划分,再利用K-均值算法对整个样本集合做聚类,则既可以避免分级聚类算法的计算复杂又可充分利用K-均值算法的快速特点;另一方面则利用了分级聚类算法准确度高为确定初始聚类中心提供了可靠的方法。文中给出了纯K-均值方法、分级聚类与平面划分结合方法在解决文本分类问题上的实验结果。 展开更多
关键词 文本聚类 层次聚类 K-均值 机器学习 计算复杂度 分级聚类 平面划分 网页分类
下载PDF
VC环境下两种GIS组件开发比较 被引量:6
17
作者 刘爽 卢桂艳 《计算机工程与设计》 CSCD 北大核心 2008年第2期519-520,F0003,共3页
组件式地理信息系统是目前GIS软件技术发展的主流。分析了MapInfo公司推出的MapX组件和美国环境系统研究所推出的MapObjects组件的特点和功能,介绍了在Visual C++环境下开发二者的差异,探讨了在控件初始化、图层操作、动态目标实时跟踪... 组件式地理信息系统是目前GIS软件技术发展的主流。分析了MapInfo公司推出的MapX组件和美国环境系统研究所推出的MapObjects组件的特点和功能,介绍了在Visual C++环境下开发二者的差异,探讨了在控件初始化、图层操作、动态目标实时跟踪、通用地图工具等具体功能实现上的差别,并给出了实例说明。最后,总结了MapX与MapObjects各自的开发优势和缺陷。 展开更多
关键词 地理信息系统 组件式GIS 图层控制 文本标注 实时跟踪
下载PDF
一种基于文本信息的三层过滤系统的设计 被引量:1
18
作者 胡柳 周立前 黄丽君 《计算机技术与发展》 2013年第4期135-138,共4页
为了提高文本信息过滤的效率,提出一种基于文本信息的三层过滤系统。系统分为横向二部分、纵向三层次的结构,在信息过滤时第一层采用基于IP、URL地址的过滤方式;第二层为关键词频与权重的统计,对信息标题、关键词及正文内容三部分分别... 为了提高文本信息过滤的效率,提出一种基于文本信息的三层过滤系统。系统分为横向二部分、纵向三层次的结构,在信息过滤时第一层采用基于IP、URL地址的过滤方式;第二层为关键词频与权重的统计,对信息标题、关键词及正文内容三部分分别计算统计值;第三层为内容特征分析过滤,同时引入分词、关键词权重计算、VSM与主题倾向分析技术,保证不良信息识别的高效与准确。实验表明系统具有较好的过滤效果,查全率和查准率明显优于KNN方法,在实时信息过滤时能及时阻止不良信息的传播。 展开更多
关键词 文本信息 三层过滤 向量空间模型 主题倾向
下载PDF
方正书版大样转双层PDF文件的实现方法 被引量:7
19
作者 艾红 徐泽智 章丽萍 《武汉理工大学学报(信息与管理工程版)》 CAS 2011年第2期214-216,235,共4页
概述了方正书版大样转PDF文件方法的优缺点。根据科技期刊开放存取以及复制、检索的需要,提出一种用ps22pdf、Foxit PDF Editor等软件实现方正大样转双层PDF文件的新方法,所生成的PDF文件具有精确重现原文、能复制原文本和全文检索等功... 概述了方正书版大样转PDF文件方法的优缺点。根据科技期刊开放存取以及复制、检索的需要,提出一种用ps22pdf、Foxit PDF Editor等软件实现方正大样转双层PDF文件的新方法,所生成的PDF文件具有精确重现原文、能复制原文本和全文检索等功能,为科技期刊的开放存取提供了一种新的实现手段。 展开更多
关键词 方正书版大样 双层PDF文件 文本型PDF 图像型PDF
下载PDF
文档挖掘与降维技术 被引量:13
20
作者 陈莉 焦李成 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2003年第3期267-271,共5页
提出了基于虚拟数据库和分层数据库的文档挖掘的一般模型,讨论了用于降低输入空间维数的维削减技术,以提高挖掘效率、改善挖掘性能。实验结果表明文中的方法是可行的。
关键词 文档挖掘 降维 虚拟数据库 多层数据库
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部