期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于逐层扫描的频繁字串快速提取算法 被引量:1
1
作者 张宇萌 刘传汉 《计算机科学》 CSCD 北大核心 2008年第5期127-130,共4页
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
关键词 频繁字串 中文抽词 逐层扫描 互信息
下载PDF
基于序列数据挖掘的中文网页特征选择方法 被引量:2
2
作者 谷峰 刘晨曦 吴扬扬 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期97-100,共4页
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结... 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等. 展开更多
关键词 序列数据挖掘 PAT树 净频率 频繁字串 中文网页分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部