期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法 被引量:5
1
作者 如先姑力·阿布都热西提 亚森·艾则孜 郭文强 《计算机应用研究》 CSCD 北大核心 2019年第11期3410-3414,共5页
提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最... 提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。 展开更多
关键词 维吾尔语网页 不良文本过滤 n-gram词干提取 类不平衡SVM
下载PDF
基于SVM的不良文本信息识别 被引量:5
2
作者 吕洪艳 杜鹃 《计算机系统应用》 2015年第6期183-187,共5页
不良文本识别的实际应用中,大多数文本之间总有交界甚至彼此掺杂,这种非线性不可分问题给不良文本识别带来了难度.应用SVM通过非线性变换可以使原空间转化为某个高维空间中的线性问题,而选择合适的核函数是SVM的关键.由于单核无法兼顾... 不良文本识别的实际应用中,大多数文本之间总有交界甚至彼此掺杂,这种非线性不可分问题给不良文本识别带来了难度.应用SVM通过非线性变换可以使原空间转化为某个高维空间中的线性问题,而选择合适的核函数是SVM的关键.由于单核无法兼顾对独立的不良词汇和词汇组合的识别,使识别准确率不高,而且也无法兼顾召回率.针对不良文本识别的特定应用,依据Mercer定理结合线性核与多项式核提出了一种新的组合核函数,这种组合核函数能兼顾线性核与多项式核的优势,能够实现对独立的不良词汇以及词汇组合进行识别.在仿真实验中评估了线性核、齐次多项式核以及组合核函数,实验结果表明组合核函数的识别准确率与召回率都比较理想. 展开更多
关键词 SVM 组合核函数 不良文本 信息识别 召回率
下载PDF
基于χ~2统计量的不良文本过滤特征选择方法 被引量:1
3
作者 管江红 《现代电子技术》 北大核心 2019年第21期182-186,共5页
针对现有以χ^2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别... 针对现有以χ^2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ^2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。 展开更多
关键词 特征选择 χ^2统计量 双层分类 不良文本过滤 特征项分布 评估指标
下载PDF
一种不良文本识别特征选择方法
4
作者 张永奎 高峰 《计算机工程与应用》 CSCD 北大核心 2010年第2期129-131,共3页
针对不良文本的特殊性,提出一种两步特征选择方法。首先对训练文本用有限自动机识别其中的特殊词作为特征加入特征集,同时将原文还原为不含特殊词的文本。对还原后文本用"组合特征选择方法"选择特征加入特征集。实验结果表明... 针对不良文本的特殊性,提出一种两步特征选择方法。首先对训练文本用有限自动机识别其中的特殊词作为特征加入特征集,同时将原文还原为不含特殊词的文本。对还原后文本用"组合特征选择方法"选择特征加入特征集。实验结果表明利用两步特征选择方法能有效提高非法文本识别精度。 展开更多
关键词 特殊词 有限自动机 特征选择 不良文本识别
下载PDF
基于最大熵模型的藏文不良文本识别系统的设计和实现
5
作者 仁青诺布 苏亚超 孙亚东 《西藏科技》 2014年第3期77-78,共2页
随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,... 随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,利用Opennlp最大熵工具包实现功能,利用最大熵模型求出文档属于不良文本和合法文本的概率,通过分析准确率、召回率对识别结果进行分析。通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。 展开更多
关键词 最大熵模型 藏文文本 不良文本识别 特征选取
下载PDF
基于KNN的不良文本过滤方法 被引量:7
6
作者 王洪彬 刘晓洁 《计算机工程》 CAS CSCD 北大核心 2009年第24期69-71,共3页
不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了... 不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。 展开更多
关键词 KNN算法 不良文本过滤 χ2统计量
下载PDF
基于最大熵模型的不良文本识别
7
作者 高峰 张永奎 《电脑开发与应用》 2009年第1期6-8,共3页
构建了一个基于最大熵原理的不良文本识别模型,该模型分为训练和测试两个模块,先从训练语料中抽取特征,利用最大熵方法对特征进行训练,然后使用经过训练的特征,对测试集中的不良文本进行识别,达到了比较满意的识别效果,最后对实验结果... 构建了一个基于最大熵原理的不良文本识别模型,该模型分为训练和测试两个模块,先从训练语料中抽取特征,利用最大熵方法对特征进行训练,然后使用经过训练的特征,对测试集中的不良文本进行识别,达到了比较满意的识别效果,最后对实验结果进行了分析。 展开更多
关键词 最大熵模型 特征选择 特征函数 不良文本识别
下载PDF
基于多质心的不良文本快速过滤方法
8
作者 黄家裕 刘连芳 《广西科学院学报》 2010年第4期436-438,共3页
针对Rocchio容易受到类别样本分布及噪声影响的而导致错误扩大类别范围的问题,提出对训练样本进行聚类,使用聚类形成的多个簇的质心向量替代单个质心向量作为过滤判定向量组的方法。该方法既能保证过滤效率,又比单质心的Rocchio过滤法... 针对Rocchio容易受到类别样本分布及噪声影响的而导致错误扩大类别范围的问题,提出对训练样本进行聚类,使用聚类形成的多个簇的质心向量替代单个质心向量作为过滤判定向量组的方法。该方法既能保证过滤效率,又比单质心的Rocchio过滤法具有更高的召回率和准确率。 展开更多
关键词 不良文本 快速过滤 多质心向量 ROCCHIO K-MEANS
下载PDF
基于深度学习的网络不良文本识别分析研究
9
作者 武梦旭 《统计理论与实践》 2021年第7期24-29,共6页
近年来,深度学习凭借强大的特征提取和目标分类能力开始应用于自然语言处理领域。互联网的普及导致各种负面言论污染了网络环境,因此,本文基于深度学习对网络不良文本识别展开深入研究。针对文本特征提取不足导致文本信息损失的问题,提... 近年来,深度学习凭借强大的特征提取和目标分类能力开始应用于自然语言处理领域。互联网的普及导致各种负面言论污染了网络环境,因此,本文基于深度学习对网络不良文本识别展开深入研究。针对文本特征提取不足导致文本信息损失的问题,提出一种基于特征融合的网络不良文本分类方法。将N-Gram提取的词特征和基于Word2Vec的BiLSTM提取的文本语义特征融合,能更好的提取文本信息,避免文本信息的损失。实验结果表明,提出的基于特征融合的方法对网络不良文本分类有更好的性能和效果。 展开更多
关键词 网络不良文本 深度学习 特征融合 BiLSTM
下载PDF
基于语义分析的不良倾向文本的识别算法研究 被引量:2
10
作者 刘梅彦 张仰森 张涛 《北京信息科技大学学报(自然科学版)》 2014年第4期16-20,共5页
分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此... 分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此算法能够较好地提高不良文本识别效率和准确率。 展开更多
关键词 不良倾向文本 语义分析 依存句法分析
下载PDF
不良关键词知识图谱构建技术研究
11
作者 戴晶 杜刚 +2 位作者 王红雨 张晨 杜雪涛 《电信工程技术与标准化》 2023年第2期35-39,共5页
为拦截不良文本信息,策略专员定制了大量关键词组合策略。策略中的关键词蕴含了丰富的不良文本特征知识,这些知识零散地分散在数千条策略中,缺乏整体性和系统性,不能进行有效的二次利用。本文研究了不良关键词知识图谱构建方法,将关键... 为拦截不良文本信息,策略专员定制了大量关键词组合策略。策略中的关键词蕴含了丰富的不良文本特征知识,这些知识零散地分散在数千条策略中,缺乏整体性和系统性,不能进行有效的二次利用。本文研究了不良关键词知识图谱构建方法,将关键词组合策略形成知识图谱,提供不良文本特征知识高效查询能力,方便线下大数据分析使用,具有实际应用价值。 展开更多
关键词 知识图谱 关键词组合策略 不良文本特征
下载PDF
面向信息内容安全的文本过滤模型研究 被引量:17
12
作者 刘梅彦 黄改娟 《中文信息学报》 CSCD 北大核心 2017年第2期126-131,138,共7页
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤... 该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。 展开更多
关键词 文本信息过滤 不良文本 语义分析 依存句法分析
下载PDF
一种改进的分类算法在不良信息过滤中的应用 被引量:1
13
作者 刘志刚 杜娟 衣治安 《微计算机应用》 2011年第2期9-14,共6页
使用KNN(K Nearest Neighbor)分类算法进行不良文本信息过滤时,由于包含不良信息的样本不易获取,导致分类器预测结果严重倾向于多数类。为改善少数类过滤效果,从数据层的角度改进了传统的KNN算法:先将少数类样本聚类分组,再在每个聚类... 使用KNN(K Nearest Neighbor)分类算法进行不良文本信息过滤时,由于包含不良信息的样本不易获取,导致分类器预测结果严重倾向于多数类。为改善少数类过滤效果,从数据层的角度改进了传统的KNN算法:先将少数类样本聚类分组,再在每个聚类内部使用遗传交叉生成新样本,并验证其有效性,最终获取到各类别样本数量基本均衡的训练样本集合并训练KNN分类器。实验结果表明,本文的方法可有效识别不良文本。此方法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。 展开更多
关键词 不均衡数据集 样本生成 分类 不良文本 信息过滤 聚类 遗传交叉
下载PDF
一种增长型自组织特征映射文本聚类方法 被引量:1
14
作者 张颖超 李继扬 《价值工程》 2012年第16期167-168,共2页
为建设和谐文明的网络环境,提升对网络不良文本信息的识别和应对能力。文章使用一种新颖的基于增长型自组织特征映射(GSOFM)和潜在语义索引(LSI)相结合方法用于不良文本聚类。这两种算法的结合能够发现全局和局部的模式特点。实验在相... 为建设和谐文明的网络环境,提升对网络不良文本信息的识别和应对能力。文章使用一种新颖的基于增长型自组织特征映射(GSOFM)和潜在语义索引(LSI)相结合方法用于不良文本聚类。这两种算法的结合能够发现全局和局部的模式特点。实验在相同的条件下使用了这种新颖的模式并和单一的GSOFM相比较。实验结果证明:这种新的两种技术的结合与单一的GSOFM方法相比提高了聚类结果的精确性,缩短了计算时间,为网络不良文本聚类提供了一种较好的方法。 展开更多
关键词 增长型自组织特征映射 不良文本聚类 潜在语义索引
下载PDF
基于BHO的文本过滤技术的分析与实现 被引量:1
15
作者 郭政 邓兴 《计算机安全》 2014年第4期38-39,共2页
通过对浏览器助手对象(BHO)技术的研究,提出了使用BHO对象实现网页文本不良信息过滤的方法,并对其过滤机制进行了分析,同时探讨了文本中不良信息过滤的关键技术。
关键词 浏览器助手对象 文本不良信息 过滤机制
下载PDF
绿网摘要提取系统算法研究
16
作者 龙珑 邓伟 《微型机与应用》 2013年第12期14-16,共3页
随着互联网的普及和发展,传统的文本摘要的提取方法已无法适应绿色网络提供优质内容并过滤不良文本的社会需求。提出通过条件随机场模拟对句子进行注解的方法提取文本摘要。实验证明新方法提取文本的效果有效并可提供更好的过滤不良文... 随着互联网的普及和发展,传统的文本摘要的提取方法已无法适应绿色网络提供优质内容并过滤不良文本的社会需求。提出通过条件随机场模拟对句子进行注解的方法提取文本摘要。实验证明新方法提取文本的效果有效并可提供更好的过滤不良文本的服务。 展开更多
关键词 绿色网络 提取信息 不良文本 过滤 条件随机场
下载PDF
关键词组合策略基线检查方法研究
17
作者 杜刚 张晨 杜雪涛 《电信工程技术与标准化》 2022年第10期28-31,共4页
关键词组合策略是垃圾文本治理的有效手段。大量的策略生产任务使策略运营人员不可避免地发生疏忽,导致策略配置不当,从而导致垃圾文本泛滥、监控系统失效和用户投诉增加等诸多负面影响。本文从策略的格式、策略关键字的广度和策略属性... 关键词组合策略是垃圾文本治理的有效手段。大量的策略生产任务使策略运营人员不可避免地发生疏忽,导致策略配置不当,从而导致垃圾文本泛滥、监控系统失效和用户投诉增加等诸多负面影响。本文从策略的格式、策略关键字的广度和策略属性配置3个方面,提出了一种策略基线检查法,可以帮助运营商规避各种策略配置不合理的问题,从而大大提高策略运行的效率。 展开更多
关键词 基线检查 不良文本治理 内容安全
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部