-
题名一种基于逆向匹配算法的中文文本分类技术
被引量:3
- 1
-
-
作者
刘新
刘任任
-
机构
湘潭大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2008年第4期945-947,共3页
-
基金
国家自然科学基金资助项目(60673193)
湖南省教育厅一般项目(07C750)
湖南省教育厅划块项目(06C870)
-
文摘
针对中文文本的自动分类问题,提出了一种逆向匹配算法。该算法的基本思路是构造一个带权值的分类主题词表,然后用词表中的关键词在待分类的文档中进行逆向匹配,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。
-
关键词
文本分类
逆向匹配算法
增益权值
主题词表
-
Keywords
text categorization
reverse matching algorithm
gain weight
subject terms list
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于主题词表的快速中文文本分类技术
被引量:1
- 2
-
-
作者
刘新
刘任任
-
机构
湘潭大学信息工程学院
-
出处
《情报学报》
CSSCI
北大核心
2008年第3期323-327,共5页
-
基金
国家自然科学基金资助项目(60673193)
湖南省教育厅重点项目(07A067)
+1 种基金
湖南省教育厅一般项目(07C750)
湘潭大学跨学科星火项目(0609016).
-
文摘
针对中文文本的自动分类问题,提出了一种新的算法。该算法的基本思路是构造一个带权值的分类主题词表,该词表采用键树的方式构建,然后利用哈希杂凑法和长词匹配优先原则在主题词表中匹配待分类的文档中的字符串,并统计匹配成功的权值和,以权值和最大者作为分类结果。本算法可以避开中文分词的难点和它对分类结果的影响。理论分析和实验结果表明,该技术分类结果的准确度和时间效率都比较高,其综合性能达到了目前主流技术的水平。
-
关键词
文本分类
主题词表
键树
哈希函数
增益权值
-
Keywords
text categorization, subject terms list, key tree, Hash function, gain weight
-
分类号
G254.0
[文化科学—图书馆学]
TP391
[自动化与计算机技术—计算机应用技术]
-