-
题名一个基于非法文本用词特征分析的文本分类器
被引量:1
- 1
-
-
作者
李东艳
张永奎
-
机构
大连交通大学
山西大学
-
出处
《电脑开发与应用》
2006年第10期2-3,6,共3页
-
基金
国家自然科学基金(60475022)
山西省自然科学基金(20041041)资助
-
文摘
针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的特殊词自动识别算法动态更新特殊词表及其权值,从而将特殊词信息与二分文本分类器相结合,提高对不健康文本的识别精度。结果表明,加入特殊词自动识别及判断,有效地提高了非法文本的识别精度。
-
关键词
特殊词
特征分析
符号密度
自动识别
二分文本分类器
-
Keywords
special words, character analysis, symbol density, automatic identifier method, dimidiate text category
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-