-
题名基于高阶N-gram的单词聚类和规则获取算法研究
- 1
-
-
作者
关毅
张凯
付国宏
-
机构
哈尔滨工业大学计算机系自然语言理解研究室
-
出处
《计算机应用研究》
CSCD
1999年第5期15-17,共3页
-
基金
国家八六三项目!863-306-02-1
-
文摘
本文首先提出一种由低阶N-gram语言模型构造高阶N-gram语言模型的方法,并进而应用使用该方法构造成功的5-gram模型研究并实现了单词聚类和规则获取的算法。
-
关键词
N-gran文法
单词聚类
规则获取
算法
语音识别
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于数据挖掘的文本自动分类仿真研究
被引量:2
- 2
-
-
作者
赖娟
-
机构
乐山师范学院智能信息处理及应用实验室
乐山师范学院计算机科学学院
-
出处
《计算机仿真》
CSCD
北大核心
2011年第12期195-198,共4页
-
基金
乐山师范学院校级重点项目(Z0908)
-
文摘
研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性。传统分类方法难以获得高正确率。为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法。利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类。用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率。
-
关键词
文本分类
支持向量机
特征选择
单词聚类
-
Keywords
Text categorization
Support vector machine(SVM)
Feature selection
Word clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-