期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于序列数据挖掘的中文网页特征选择方法 被引量:2
1
作者 谷峰 刘晨曦 吴扬扬 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期97-100,共4页
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结... 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等. 展开更多
关键词 序列数据挖掘 PAT树 净频率 频繁字串 中文网页分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部