期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于基尼系数的n-grams特征约简加权算法
1
作者 张金美 舒希勇 《淮阴工学院学报》 CAS 2016年第1期25-28,共4页
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得... 目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果。另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理。为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对ngrams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权结果。通过支持向量机中的实验结果表明,经过基尼系数约简和加权后的n-grams特征在分类结果上要优于TF(Term Frequency)等加权方法,验证了算法的有效性。 展开更多
关键词 n-grams特征 基尼指数 洛伦茨曲线 支持向量机
下载PDF
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
2
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
下载PDF
基于N-gram特征的网络恶意代码分析方法 被引量:3
3
作者 孟庆春 《数字技术与应用》 2020年第3期49-50,52,共3页
由于传统的网络恶意代码分析方法,在进行网络恶意代码分析时无法对网络恶意代码字节特征进行归一化处理,因此网络恶意代码误报率高,无法实现对网络恶意代码的精准分析。针对这一问题,提出基于N-gram特征的网络恶意代码分析方法。建立网... 由于传统的网络恶意代码分析方法,在进行网络恶意代码分析时无法对网络恶意代码字节特征进行归一化处理,因此网络恶意代码误报率高,无法实现对网络恶意代码的精准分析。针对这一问题,提出基于N-gram特征的网络恶意代码分析方法。建立网络恶意代码N-gram特征列表,通过网络恶意代码空间特征填充曲线映射,分析网络恶意代码。对比实验结果表明,设计的分析方法网络恶意代码误报率远低于传统方法,证明设计的分析方法分析能力更强,可以实现对网络恶意代码的精准分析。 展开更多
关键词 n-gram特征 网络恶意代码 曲线映射
下载PDF
WordNG-Vec:一种应用于CNN文本分类的词向量模型 被引量:5
4
作者 王勇 何养明 +2 位作者 邹辉 黎春 陈荟西 《小型微型计算机系统》 CSCD 北大核心 2019年第3期499-502,共4页
文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为... 文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为此,本文提出了一种结合N-Gram特征与Word2vec的词向量模型WordNG-Vec,其提取出的词向量(Word-NG向量),作为双通道卷积神经网络模型(DC-CNN)的输入.经过多组对比实验分析表明,在精确率(precision)和召回率(recall)和F1值三个评价指标下,本文提出的方法有效提高文本分类的效果. 展开更多
关键词 文本分类 词向量 DC-CNN n-gram特征
下载PDF
面向军事领域的中文分词技术研究 被引量:2
5
作者 李健龙 王盼卿 韩琪宇 《计算机与现代化》 2018年第11期115-118,126,共5页
在分词模型跨领域分词时,其性能会有明显的下降。由于标注军队遗留系统开发文档语料的工作比较复杂,本文提出n-gram与词典相结合的中文分词领域自适应方法。该方法通过提取目标语料的n-gram特征训练适应特征领域的分词模型,然后利用领... 在分词模型跨领域分词时,其性能会有明显的下降。由于标注军队遗留系统开发文档语料的工作比较复杂,本文提出n-gram与词典相结合的中文分词领域自适应方法。该方法通过提取目标语料的n-gram特征训练适应特征领域的分词模型,然后利用领域词典对分词结果进行逆向最大匹配的校正。实验结果表明,在军队遗留系统相关文档语料上,该方法训练的分词模型将F值提高了12. 4%。 展开更多
关键词 条件随机场 n-gram特征 领域词典
下载PDF
基于网络行为分析的木马病毒检测算法 被引量:2
6
作者 黄学强 《信息技术》 2019年第12期86-90,共5页
木马病毒检测是保证计算机网络安全的关键。针对此问题,提出了一种基于网络行为分析的木马病毒检测方法。首先,提取变长度N-Gram特征作为木马行为特征;其次,针对N-Gram特征存在的冗余问题,采用信息增益进行筛选,提高特征对木马检测的针... 木马病毒检测是保证计算机网络安全的关键。针对此问题,提出了一种基于网络行为分析的木马病毒检测方法。首先,提取变长度N-Gram特征作为木马行为特征;其次,针对N-Gram特征存在的冗余问题,采用信息增益进行筛选,提高特征对木马检测的针对性;最后,构建了一个基于支持向量机的木马病毒检测分类器。仿真实验结果表明,提出的检测方法能够有效检测各类木马病毒程序,且各项检测指标均优于目前检测方法。 展开更多
关键词 木马病毒检测 n-gram特征 信息增益 支持向量机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部