期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
中医证候规范化研究中无监督方法探讨 被引量:9
1
作者 张世君 齐冬梅 +2 位作者 李运伦 聂文婷 朱丽娟 《长春中医药大学学报》 2016年第1期1-5,共5页
中医证候规范化研究应用的方法主要包括有监督数据分析方法和无监督数据分析方法,中医证候规范化研究中常见的无监督数据分析方法主要包括多维尺度分析、主成分分析、因子分析、聚类分析、关联规则、隐结构模型、结构方程模型和信息熵,... 中医证候规范化研究应用的方法主要包括有监督数据分析方法和无监督数据分析方法,中医证候规范化研究中常见的无监督数据分析方法主要包括多维尺度分析、主成分分析、因子分析、聚类分析、关联规则、隐结构模型、结构方程模型和信息熵,不同的无监督数据分析方法根据不同的分析思想和原理,解释的症状关系的方向不同,反映不同的问题。在进行中医证候的规范化研究中需要注意严格控制数据质量,选择合适的分析方法,并由专业研究人员对数据结果进行提炼和诠释。 展开更多
关键词 中医证候 规范化研究 无监督数据分析方法 分类
下载PDF
基于DAE与域自适应的无监督轴承故障诊断方法研究
2
作者 章志强 《长江信息通信》 2024年第9期95-98,共4页
在轴承故障诊断领域,用于训练的故障类样本量的大小以及源域和目标域之间的域差异会对模型的性能有较大影响,并且现有的方法没有充分利用目标域数据信息。为了解决上述存在的问题,提出了一种基于DAE与增强条件域自适应网络相结合的无监... 在轴承故障诊断领域,用于训练的故障类样本量的大小以及源域和目标域之间的域差异会对模型的性能有较大影响,并且现有的方法没有充分利用目标域数据信息。为了解决上述存在的问题,提出了一种基于DAE与增强条件域自适应网络相结合的无监督轴承故障诊断方法,首先利用基于凯斯西储大学轴承故障数据集(CWRU)来合成故障数据,然后预训练一个去噪自动编码器(DAE)来对轴承数据进行特征提取,合成合成故障和真实故障之间存在明显分布差异,为了减小这种差异,接着利用域自适应的方法来对齐源域和目标域,将DAE处理过后的数据输入增强条件域自适应网络(ACDAN)中进行训练,最后利用目标域数据进行测试,实验结果表明,该方法效果较好,能有效减少域之间的差异,提升模型在目标域上的准确率并且对不同级别的故障类别不平衡情况具有鲁棒性。 展开更多
关键词 去噪自动编码器 领域自适应 对抗训练 故障诊断 无监督方法
下载PDF
基于关联规则及无监督分类方法探寻孟河医派治疗中风病的用药规律
3
作者 代德金 赵杨 +1 位作者 吴天晨 杨卉 《中医药临床杂志》 2024年第1期104-109,共6页
目的:基于关联规则及无监督分类方法探寻孟河医派治疗中风病的用药规律,为临床中风病的中医药诊疗提供参考。方法:检索收集清初以来孟河医派丁甘仁、费伯雄、马培之、邓星伯、杨博良等9位代表性医家,归纳整理其诊治中风病的医话医案,采... 目的:基于关联规则及无监督分类方法探寻孟河医派治疗中风病的用药规律,为临床中风病的中医药诊疗提供参考。方法:检索收集清初以来孟河医派丁甘仁、费伯雄、马培之、邓星伯、杨博良等9位代表性医家,归纳整理其诊治中风病的医话医案,采用关联规则及无监督分类方法对数据进行数据挖掘分析。发现诊疗过程中的四诊信息及与之对应的核心药物。结果:共纳入105首处方,涉及中药173味;首先通过简单关联分析,调整支持度及关联度获得前10位的药物,用药频次最高的为半夏,舌苔脉象出现频次最高的为苔腻。支持度最高的药对、舌脉分别为陈皮和半夏、滑脉和苔腻;使用无监督分类方法将中药及四诊信息自动分为4大类。结论:通过频数分析,简单关联规则及复杂关联规则以及无监督的分类方法逐层探寻出孟河医派对中风病的独特治疗特色,发现通过机器学习找出的四诊信息与药物之间有相互对应关系。结合舌脉分析与药物分析,孟河医家治疗中风以清热化痰、补益气血、平肝熄风、祛瘀化痰为主。 展开更多
关键词 孟河医派 中风 关联规则 无监督分类方法 用药规律
下载PDF
基于多粒度信息融合的无监督行人重识别方法 被引量:2
4
作者 温静 张福康 《计算机工程与应用》 CSCD 北大核心 2023年第13期99-109,共11页
现有的无监督行人重识别算法通过残差网络仅能提取粗略的全局特征,但是随着数据集中行人、姿态数目和背景复杂性的激增,这些特征表明行人不同姿态的能力不足,使得模型出现欠拟合,进而导致识别精度下降。基于对上述问题的分析,从空间域... 现有的无监督行人重识别算法通过残差网络仅能提取粗略的全局特征,但是随着数据集中行人、姿态数目和背景复杂性的激增,这些特征表明行人不同姿态的能力不足,使得模型出现欠拟合,进而导致识别精度下降。基于对上述问题的分析,从空间域和通道域两方面考虑,设计了一种全新的多粒度信息融合的残差块(multi-granularity information fusion residual block,MgIFR block),替换残差网络中常规的残差模块,并以此提出了一种基于多粒度信息融合的无监督行人重识别方法。MgIFR模块在空间域上借鉴自注意力机制的思想,通过卷积提取粗粒度的全局特征;结合这些全局特征和图像中特定像素处编码的query,得到具有像素级上下文信息的细粒度全局特征,将具有粗粒度和细粒度的两种全局特征相结合,得到行人姿态的显著性特征;在通道域上,利用通道注意力机制,对输入的残差特征和跨层特征进行通道加权融合,最终得到具有多粒度信息融合的特征,以此来提高模型应对不同行人姿态的能力。实验结果表明,在现有公开数据集中,特别是行人数目姿态多和背景更加复杂的数据集上,相较于基线模型,Rank-1最高提升了9个百分点,mAP最高提升了10.7个百分点。提出的MgIFR模块具有更好的行人姿态的区分能力,有效解决了行人的不同姿态导致误判的问题,提高了行人重识别的准确率。 展开更多
关键词 行人重识别 多粒度 残差块 自注意力机制 上下文信息 特征融合 无监督方法
下载PDF
一种基于动态更新神经网络的无监督雷达退化故障预测方法 被引量:1
5
作者 翟玉婷 程占昕 房少军 《科学技术与工程》 北大核心 2023年第7期2901-2909,共9页
为了克服传统雷达故障检测方法对专家经验依赖性强、耗费大量人力物力、容易造成过度检修、无法对退化故障进行提前告警等缺点,提出了一种基于动态更新神经网络的无监督雷达退化故障预测方法。首先通过微波测量设备采集峰值功率和工作... 为了克服传统雷达故障检测方法对专家经验依赖性强、耗费大量人力物力、容易造成过度检修、无法对退化故障进行提前告警等缺点,提出了一种基于动态更新神经网络的无监督雷达退化故障预测方法。首先通过微波测量设备采集峰值功率和工作频率历史数据,其次利用动态更新神经网络对历史数据进行动态更新并预测后续数据,最后采用孤立森林方法对预测数据进行无监督故障检测,以此实现雷达退化故障预测并提前告警。结果表明,本文提出的方法可至少提前10个时间步(100 min)预测退化故障并实时告警,能够在小样本、无故障样本、无特征提取、无人工阈值的情况下实现雷达退化故障预测。 展开更多
关键词 故障预测 动态更新神经网络 无监督方法 雷达
下载PDF
基于知网义原词向量表示的无监督词义消歧方法 被引量:14
6
作者 唐共波 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期23-29,共7页
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文... 词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。 展开更多
关键词 词向量 《知网》 词义消歧 无监督方法
下载PDF
面向电力低资源领域的无监督命名实体识别方法 被引量:5
7
作者 刘荫 张凯 +1 位作者 王惠剑 杨冠群 《中文信息学报》 CSCD 北大核心 2022年第6期69-79,共11页
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体... 该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。 展开更多
关键词 命名实体识别 无监督方法 电力领域 BERT全词遮盖
下载PDF
非参数邻域统计的无监督纹理分割方法
8
作者 刘晓敏 《佳木斯大学学报(自然科学版)》 CAS 2008年第1期78-79,84,共3页
介绍了一个新颖的无监督分割方法,这种方法依赖于一个通用的图像邻域的非参数统计模型,直接建模图像邻域,不用建立中间特征.它不是针对某种特定纹理,而是通用在各种纹理上.文章通过静态随机域和非参数的高阶统计模型探讨了图像纹理的基... 介绍了一个新颖的无监督分割方法,这种方法依赖于一个通用的图像邻域的非参数统计模型,直接建模图像邻域,不用建立中间特征.它不是针对某种特定纹理,而是通用在各种纹理上.文章通过静态随机域和非参数的高阶统计模型探讨了图像纹理的基本描述.文章中提到了适合各种纹理的通用的公式.方法的思想是通过最小化图像邻域的概率密度函数的熵来给出最优分割.熵的最小化使用了一种快速的水平集方案.这种方法并不依赖于学习阶段的数据,是无监督的.根据数据的信息内容自动调整内部一些重要参数. 展开更多
关键词 无监督分割方法 高阶非参数统计 水平集 概率密度函数
下载PDF
面向中文社交媒体语料的无监督新词识别研究 被引量:6
9
作者 张婧 黄锴宇 +1 位作者 梁晨 黄德根 《中文信息学报》 CSCD 北大核心 2018年第3期17-25,33,共10页
该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行... 该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行过滤。此外,该文人工标注了一万条微博的分词语料作为发展语料,用于分析传统统计量以及调整变量阈值。实验使用NLPCC2015面向微博的中文分词评测任务的训练语料作为最终的测试语料。实验表明,该文方法对二元新词进行识别的F值比基线系统提高了6.75%,比目前新词识别领域最佳方法之一Overlap Variety方法提高了4.9%。最终,在测试语料上对二元新词和三元新词识别的F值达到了56.2%。 展开更多
关键词 未登录词识别 社交媒体语料 词向量 无监督方法
下载PDF
综合成分句法分析的技术名称识别
10
作者 朱俊杰 余丽 +1 位作者 李圣文 周长征 《计算机应用》 CSCD 北大核心 2024年第4期1072-1079,共8页
技术名称是科技领域中用于准确交流信息的术语,自动识别技术名称可以帮助专家和大众发现、认知、应用新技术,具有重要价值;而基于无监督的方法在识别技术名称时存在规则复杂、适应性差等问题。为了提升从文本中识别技术名称的能力,提出... 技术名称是科技领域中用于准确交流信息的术语,自动识别技术名称可以帮助专家和大众发现、认知、应用新技术,具有重要价值;而基于无监督的方法在识别技术名称时存在规则复杂、适应性差等问题。为了提升从文本中识别技术名称的能力,提出一种综合成分句法的技术名称识别方法。首先,通过成分句法分析构造句法结构树;其次,从自上而下和自下而上这两个角度抽取候选技术名称;最后,融合统计频次和语义信息,以选取最优技术名称。此外,构建一个技术术语数据集以验证所提方法的有效性。在该数据集上的实验结果表明,相较于基于依存关系的方法,所提基于自下而上的方法的F1值提高了4.55个百分点;同时在3D打印领域进行了案例分析,发现所提方法识别的技术名称与该名称对应领域的发展契合,可用于回溯技术的发展历程和描绘技术的演化路径,为理解、发现、探索领域未来技术提供参考。 展开更多
关键词 技术名称识别 成分句法分析 无监督方法 成分句法树 术语抽取
下载PDF
一种在入侵检测中发现异常的新方法
11
作者 李庆华 苏珊 蒋盛益 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第7期21-23,共3页
入侵检测是一种重要的网络安全技术 .现有的无监督方法虽然能在未经标记的数据上找出异常 ,但时间复杂度相对较高 ,不适用于入侵检测中大规模的数据集 .针对这一问题 ,提出了一种新的发现异常的无监督方法 ,通过使用聚类和K 近邻距离和... 入侵检测是一种重要的网络安全技术 .现有的无监督方法虽然能在未经标记的数据上找出异常 ,但时间复杂度相对较高 ,不适用于入侵检测中大规模的数据集 .针对这一问题 ,提出了一种新的发现异常的无监督方法 ,通过使用聚类和K 近邻距离和技术 ,克服了原有方法的缺点 ,具有较低的时间复杂度和较高的入侵检测效率 . 展开更多
关键词 入侵检测 无监督方法 聚类 K-近邻
下载PDF
基于集成学习的情感模糊计算分类方法 被引量:5
12
作者 刘磊 李学勇 黄永峰 《计算机工程与设计》 北大核心 2018年第7期1872-1876,1953,共6页
针对现有情感词典没有区分相同极性情感词的情感强度,没有考虑情感强度的模糊性,导致情感分类效果较差的问题,基于自学习的无监督情感分类方法因采用单一分类器导致在生成伪标注数据集时,会引入较多错误的问题,提出一种基于集成学习的... 针对现有情感词典没有区分相同极性情感词的情感强度,没有考虑情感强度的模糊性,导致情感分类效果较差的问题,基于自学习的无监督情感分类方法因采用单一分类器导致在生成伪标注数据集时,会引入较多错误的问题,提出一种基于集成学习的情感模糊计算分类方法。通过基于量化情感字典的模糊计算提高情感预分类精度,通过多分类器集成减少伪标注数据的错误率。在现有公开数据集的基础上,与其它算法进行实验结果比较,表明了该方法的准确性和有效性。 展开更多
关键词 量化情感字典 量化情感词典 情感分类 无监督方法 情感模糊计算 多分类器集成
下载PDF
基于改进的TextRank的自动摘要提取方法 被引量:41
13
作者 余珊珊 苏锦钿 李鹏飞 《计算机科学》 CSCD 北大核心 2016年第6期240-247,共8页
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置... 经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。 展开更多
关键词 中文文本 自动摘要提取 TextRank 篇章结构 无监督学习方法
下载PDF
基于多语BERT的无监督攻击性言论检测 被引量:4
14
作者 师夏阳 张风远 +1 位作者 袁嘉琪 黄敏 《计算机应用》 CSCD 北大核心 2022年第11期3379-3385,共7页
攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法。首先,使用多语BERT(mBERT)模... 攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法。首先,使用多语BERT(mBERT)模型在高资源英语数据集上进行对攻击性特征的学习,得到一个原模型;然后,通过分析英语与丹麦语、阿拉伯语、土耳其语、希腊语的语言相似程度,将原模型迁移到这四种低资源语言上,实现对低资源语言的攻击性言论自动检测。实验结果显示,与BERT、线性回归(LR)、支持向量机(SVM)、多层感知机(MLP)这四种方法相比,所提方法在丹麦语、阿拉伯语、土耳其语、希腊语这四种语言上的攻击性言论检测的准确率和F1值均提高了近2个百分点,接近目前的有监督检测,可见采用跨语言模型迁移学习和迁移检测相结合的方法能够实现对低资源语言的无监督攻击性检测。 展开更多
关键词 跨语言模型 攻击性言论检测 BERT 无监督方法 迁移学习
下载PDF
基于局部图互信息最大化的异构图神经网络方法
15
作者 朱志华 范鑫鑫 +1 位作者 毕经平 武超 《高技术通讯》 CAS 2021年第12期1229-1238,共10页
针对现有的基于互信息最大化的异构图神经网络(HGNN)方法因图读出操作的单射限制、粗粒度的特征保留而无法适用于现实网络的问题,提出一种基于局部图互信息最大化的、无监督的异构图神经网络方法。该方法使用元路径对异构图中涉及到的... 针对现有的基于互信息最大化的异构图神经网络(HGNN)方法因图读出操作的单射限制、粗粒度的特征保留而无法适用于现实网络的问题,提出一种基于局部图互信息最大化的、无监督的异构图神经网络方法。该方法使用元路径对异构图中涉及到的语义关系进行建模,并利用图卷积模块和语义级别的注意力机制来捕获单个节点的局部表征。该方法通过最大化单个节点与局部子图间的互信息,有效地学习高阶节点表征。实验结果表明,该方法相比基于全局图互信息的方法,可以将数据集DBLP/IMDB上的节点分类任务的微值F1(micro-F1)提高大约3%/9%,同时将DBLP/IMDB上的节点聚类任务的调整兰德系数(ARI)提高约23%/46%。 展开更多
关键词 异构图(HG) 图神经网络(GNN) 互信息 无监督方法 图表示学习
下载PDF
基于多特征融合的无监督图像质量评价算法 被引量:1
16
作者 何庆琳 《工业控制计算机》 2022年第12期115-116,119,共3页
随着多媒体的迅猛发展,图像质量评价出现在图像处理的各个方面。提出了一种基于多特征融合的无监督无参考图像质量评价方法,主要分为特征提取和多元高斯模型拟合两方面。在特征提取方面,融合自然图像统计特征,相位一致性特征、KL变换特... 随着多媒体的迅猛发展,图像质量评价出现在图像处理的各个方面。提出了一种基于多特征融合的无监督无参考图像质量评价方法,主要分为特征提取和多元高斯模型拟合两方面。在特征提取方面,融合自然图像统计特征,相位一致性特征、KL变换特征、梯度与高斯拉普拉斯算子联合响应特征、堆叠自编码器特征等。该方法使用多元高斯模型框架,将特征拟合模型参数之间的差异作为图像质量分数。在5个数据库中的实验表明,所提出的方法不仅有较好的评价表现和泛化性能,而且时间复杂度也很有竞争力。 展开更多
关键词 无参考图像质量评价 无监督方法 多元高斯模型
下载PDF
属性网络中基于变分图自编码器的异常节点检测方法 被引量:12
17
作者 李忠 靳小龙 +3 位作者 王亚杰 孟令宾 庄传志 孙智 《模式识别与人工智能》 CSCD 北大核心 2022年第1期17-25,共9页
图神经网络为属性网络数据挖掘提供融合利用结构信息和属性信息的方法,但是在现阶段基于图自动编码器进行无监督属性网络异常节点检测时,常将正常节点子属性插值形成的节点误识别为异常节点,导致方法的假负率较高.针对上述问题,文中提... 图神经网络为属性网络数据挖掘提供融合利用结构信息和属性信息的方法,但是在现阶段基于图自动编码器进行无监督属性网络异常节点检测时,常将正常节点子属性插值形成的节点误识别为异常节点,导致方法的假负率较高.针对上述问题,文中提出基于变分图自编码器的异常节点检测方法.模型包含两个编码器和一个解码器,利用一个编码器和一个解码器构成的变分自编码器模型,重建原始输入数据,再利用解码器和第二个编码器,使模型学习到不包含异常节点数据的网络隐层表达.通过双变分自编码器学习正常节点子特征,并利用重建误差作为节点的异常度量,将由正常节点子特征构成的正常节点判别为正常节点.在真实网络数据集上的实验表明,文中方法能有效进行属性网络异常节点检测. 展开更多
关键词 异常节点检测 属性网络 变分自编码器 重建误差 无监督异常检测方法
下载PDF
大规模脉冲星候选体信号的无监督聚类分析研究 被引量:1
18
作者 刘莹 马智 +4 位作者 游子毅 王培 党世军 赵汝双 董爱军 《天文学报》 CAS CSCD 北大核心 2022年第3期127-136,共10页
随着500 m口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,FAST)等大型射电望远镜的建设和使用,脉冲星巡天数据进入PB时代.为解决如此大量高速采样的标量数据挖掘问题,促进新天文现象的发现,提出一种基于... 随着500 m口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,FAST)等大型射电望远镜的建设和使用,脉冲星巡天数据进入PB时代.为解决如此大量高速采样的标量数据挖掘问题,促进新天文现象的发现,提出一种基于无监督聚类的脉冲星候选体筛选方案.该方案采用基于密度层次、划分方法的混合聚类算法,结合MapReduce/Spark并行计算模型和基于滑动窗口的分组策略,进而提高大量候选体信号筛选的效率.通过在脉冲星数据集HTRU2(High Time Resolution Universe)上的对比实验,结果表明该算法能取得较高的精确度和召回率,分别是0.946和0.905,并且当并行节点足够时,该算法的时间复杂度相比串行执行明显下降.可见,该方法为脉冲星观测大数据的分析挖掘提供一种可行思路. 展开更多
关键词 脉冲星:普通 数据集:HTRU2 方法:混合聚类 方法:无监督
下载PDF
基于TextRank的关键词提取改进方法研究 被引量:6
19
作者 孟彩霞 张琰 李楠楠 《计算机与数字工程》 2020年第12期3022-3026,共5页
基于TextRank的关键词提取方法主要考虑文档的语义信息,没有考虑到文本的结构信息,导致关键词提取的准确率较低。为了得到更好的关键词提取效果,论文对新闻语料库关键词提取方法进行了研究,提出将文本的结构信息和语义信息相结合。基于T... 基于TextRank的关键词提取方法主要考虑文档的语义信息,没有考虑到文本的结构信息,导致关键词提取的准确率较低。为了得到更好的关键词提取效果,论文对新闻语料库关键词提取方法进行了研究,提出将文本的结构信息和语义信息相结合。基于TextRank算法,利用文本的结构信息(词语位置、词语跨度)和词语相似度改变词语权重计算方式,进而提取文本关键词。将论文提出的算法与TF-IDF、TextRank、Word2vec+TextRank进行了对比实验,结果表明,从准确率P、召回率R、测量值F三个方面都取得了良好的实验效果。具体表现为当关键词个数相同K=3时,TextRank算法评价指标准确率P、召回率R、测量值F分别为22.21%、19.78%、20.92%;加入文档的词语位置信息和词语跨度信息以后评价指标准确率P、召回率R、测量值F分别为29.83%、31.34%、30.56%。 展开更多
关键词 TextRank Word2Vec 关键词提取 词向量 无监督学习方法
下载PDF
基于K-平均值方法的入侵检测系统
20
作者 王泽生 《科技情报开发与经济》 2008年第20期144-145,共2页
介绍了入侵检测系统,将数据挖掘中的K-平均值聚类方法应用于入侵检测系统,对仿真实验的结果进行了分析,证明了将K-平均值方法用于网络入侵检测的可行性。
关键词 K-平均值方法 无监督聚类方法 入侵检测系统
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部