基于概念和关联扩充的文本标题分类机制

Mechanism for Title Classification Based on Conceptual and Associated Expansion

下载PDF

导出

摘要文本分类是处理电子可读文本的重要手段,本文提出了基于标题的文本分类机制.其基本思想是:鉴于文本标题的重要性和简洁性,利用汉语语义分类树寻求概念上的扩充,利用语料库的关联矩阵,进行关联扩充,以丰富标题的语义内涵,从而获取较高精度的文本分类结果.该方法不依赖于汉语分析器和相应的领域知识库,速度较快,应用面较广. Text classification plays an important role in processing readable online texts. Text classification approach based on text titles is presented. Its main idea is shown as follows: considering the significance and concision of text titles, Concept expansion is performed with Chinese semantic classified tree; and association expansion is executed with the associated matrix derived from corpus. These expansions aim at enriching the meanings of text titles in synonymous and collocation relationships. The similarities between expanded feature vectors of classes and that of titles are used to determine the classes which texts belong to. It is independent of Chinese parser and domain knowledge bases, and it is easy to apply in wide range and its speed is fast.

作者郑海林鸿飞杨志豪付建文

机构地区海军大连水面舰艇学院航海系大连理工大学计算机系

出处《小型微型计算机系统》 CSCD 北大核心 2005年第5期732-734,共3页 Journal of Chinese Computer Systems

基金国家自然科学基金项目 (60 3 73 0 95 )资助

关键词文本分类概念扩充关联扩充向量空间模型 text classification conceptual expansion associated expansion vector space model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1战学刚,林鸿飞,姚天顺.中文文献的层次分类方法[J].中文信息学报,1999,13(6):20-25. 被引量：22
2麻志毅.[D].东北大学,1999.
3战学钢姚天顺.基于语义分析的标题分类方法[A]..中文信息处理国际会议论文集[M].北京:清华大学出版社,1998..
4陈磊.基于HNC语义分析的中文标题分类方法[A]..计算语言学文集[M].北京:清华大学出版社,1999.371-375.
5Lin Hong-fei, Zhang xue-gang, Yao Tian-shun. Text structure analysis based on concept [J]. Journal of Computer Research and Development, 2000,37 (3): 324- 328.林鸿飞,战学钢,姚天顺.基于概念的文本分析方法[J].计算机研究与发展,2000,37(3):324-328.
6Yang Yi-ming, et al. An example-based mapping method for text categorization and retrieve[J]. ACM Transaction on Information Systems, 1994,12(3) :257-277.
7Elizabeth D. Liddy, etc. Text categorization for multiple users based on semantic features from a machine readable dictionary[J]. ACM Transaction on Information Systems, 1994,12 (3):278-295.
8David D. Lewis. Challenge in machine learning for text classification[C]. In: Proceedings of the Ninth Annual Conference on Computational Learning Theory. Desenzano del Garda, Italy,1996 ,Http://www. research. att. com/～lewis.

二级参考文献5

1战学刚姚天顺.基于汉语分析的中文分类方法.1998中文信息处理国际会议论文集[M].北京:清华大学出版社,1998..
2战学刚，1998中文信息处理国际会议论文集，1998年
3吴立德，大规模中文文本处理，1997年
4姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年
5Yang Yiming，http://www.cs.cmu.edu//yiming

共引文献21

1徐海涛,杨森,柴乔林.基于统计分词的中文邮件智能分类系统[J].华中科技大学学报（自然科学版）,2003,31(S1):325-328. 被引量：1
2郑海,林鸿飞.基于段落匹配的文本分类机制[J].计算机工程与应用,2004,40(28):174-176. 被引量：3
3袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
4江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
5朱道平.走出“促销”误区推进精确营销[J].信息网络,2005(3):18-21.
6白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
7张敏,郝矿荣,江洪波,孙继林,袁文勤.面向生物学文献的自动分类的研究[J].微计算机信息,2006,22(02X):65-67.
8熊云波,李荣陆,胡运发.基于混淆矩阵的层次结构构造方法比较[J].模式识别与人工智能,2007,20(2):205-210. 被引量：6
9马乐,翁智生,罗军.一种基于SVM的网页层次分类算法[J].北京师范大学学报（自然科学版）,2009,45(3):247-249.
10刘开袆,江志雄.基于K-近邻方法的网络信息文本分类[J].贵州大学学报（自然科学版）,2009,26(3):60-63. 被引量：2

1张红霞,王宝库,陈郭成.编译方法课程设计的改革实践[J].东北大学学报（社会科学版）,2000,2(2):117-118. 被引量：1
2尤文建,李绍滋,李堂秋.基于概念扩充的文本过滤模型[J].计算机工程与应用,2003,39(25):74-77. 被引量：9
3陈沈焰,吴军华.基于本体的概念语义相似度计算及其应用[J].微电子学与计算机,2008,25(12):96-99. 被引量：31
4孟凡荣,田恬,张磊.基于语义树的语义关联度算法改进[J].微计算机信息,2009,25(12):268-270. 被引量：2
5谢文玲,潘建国.基于语义相似度的个性化信息检索方法[J].计算机应用与软件,2011,28(5):161-164. 被引量：4
6林鸿飞,战学刚,姚天顺.基于概念扩充的中文文本过滤模型[J].计算机科学,2000,27(2):88-90. 被引量：7
7林鸿飞.基于示例的文本标题分类机制[J].计算机研究与发展,2001,38(9):1132-1136. 被引量：17
8闫旸,赵佳鹏,李全刚,张洋,柳厅文,时金桥.面向文本标题的人物关系抽取[J].计算机应用,2016,36(3):726-730. 被引量：3
9谷文,王迪,王红梅.基于概念扩充的新闻信息抽取模型[J].计算机与信息技术,2009(12):47-49.
10方滨兴,殷丽华.关于信息安全定义的研究[J].信息网络安全,2008(1):8-10. 被引量：22

小型微型计算机系统

2005年第5期

浏览历史

内容加载中请稍等...

基于概念和关联扩充的文本标题分类机制

参考文献8

二级参考文献5

共引文献21

相关作者

相关机构

相关主题

浏览历史