摘要
针对互联网中含不良内容的文本带来的信息安全问题,分析总结它们出现的特征,结合内容过滤技术,提出对此类文本的预处理方法,即带标点符号属性预选取方法。方法充分利用此类信息中词出现的特征,在属性预选取中,将标点符号作为潜在特征词的触发信息,进行文本预选属性集的提取。实验结果表明,该方法对增加合法文本与非法文本的区分度有较明显的效果。
Contents containing ill information in Web have brought new problems to information security. Using content filter technology,a new feature pre-selection method has been put forward for farther feature selection. Considering the format of the word in the contents,the method uses punctuations as the trigger extracting the latent word. Results show that the method has prominent effect in differentiating legit and illegitimate content.
出处
《计算机应用》
CSCD
北大核心
2004年第4期113-115,共3页
journal of Computer Applications
基金
山西省回国留学人员基金(2002004)
关键词
内容过滤
信息安全
非法文本
属性预选取
content filter
information security
illegitimate content
feature pre-selection