基于上下文关系的文本分类特征描述方法被引量：6

Context Based Feature Description Model in Chinese Text Categorization

下载PDF

导出

摘要文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。 Text feature description is considered as the basic problem in text classification and it aims to use computable feature to model documents. The most used feature description method treats a text as a set of words, which called ＂bag of words＂ model, under this model feature selection and weighting consider the ＂frequency＂ of single word only, ignoring the relation of words in context. But generally words in a certain context field can deliver correlative meaning for a same topic. So the ＂bag of words＂ model loses the context information that is important facts for improving classifica- tion precision. This paper presents a new feature description method based on text context. First, a commonly used feature selection method is used to get an initial set of feature words; secondly, Mutual Information （MI） is used to compute the word dependence in a concrete context, then, the feature words is selected according to the denpendence. Meanwhile, the weight of each feature is adjusted. Experiment result indicates the efficience of the new approach.

作者何中市刘里

机构地区重庆大学计算机学院

出处《计算机科学》 CSCD 北大核心 2007年第5期183-186,共4页 Computer Science

基金国家自然科学基金项目(60173060)

关键词特征描述文本分类向量空间模型权重计算 Feature description, Text categorization, Vector space model, Weighting

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1鲁松,白硕.自然语言处理中词语上下文有效范围的定量描述[J].计算机学报,2001,24(7):742-747. 被引量：47
2任纪生,王作英.基于特征有序对量化表示的文本分类方法[J].清华大学学报（自然科学版）,2006,46(4):527-529. 被引量：4
3刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45
4Angheluta R,De Busser R,Moens M-F.The use of topic segmentation for automatic summarization In:Hahn U,Harman D,eds.Proceedings of the Workshop on Automatic Summarization.Philadelphia,Pennsylvania,USA,2002.66～70
5谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
6Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.Information Processing and Management,2004,40:65～79
7Sebastiani F.Machine Learning in Automated Text Categorization.ACM Computing Surveys,2002,34(1):1～47

二级参考文献91

1靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
2刘开瑛，计算机期刊关键词标引统计分析技术报告，1996年
3刘开瑛，中国人民银行××省分行《重要文件汇编》的主题词标引研究技术报告，1996年
4白硕，语言学知识的计算机辅助发现，1995年
5方开泰，实用多元统计分析，1989年
6Lin D, Pantel P. DIRT-Discovery of Inference Rules from Text. In: Proc of ACM SIGKDD Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2001. 323-328.
7Harris Z. Distributional Structure. In: Katz J J, ed. The Philosophy of Linguistics. New York, USA: Oxford University Press, 1985, 26-47.
8van Rijsbergen C J. Information Retrieval. 2nd edition. London, UK: Buttersworth, 1989.
9Cutting D R, Karger D R, Pedersen J O, Tukey J W. Scatter/ Gather: A Cluster-Based Approach to Browsing Large Document Collections. In: Proc of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Copenhagen, Denmark, 1992, 318-329.
10Zamir O, Etzioni O, Madani O, Karp R M, Fast and Intuitive Clustering of Web Documents, In: Proc of the 3rd International Conference on Knowledge Discovery and Data Mining, San Diego, USA, 1997, 287-290.

共引文献141

1于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
2谢春发.中文信息处理在智能答疑系统中的应用研究[J].福建广播电视大学学报,2005(2):55-57.
3刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
4马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
5何静,刘海燕.基于向量空间模型的实时内容过滤[J].计算机工程,2004,30(15):26-27. 被引量：2
6卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
7郑海,林鸿飞.基于段落匹配的文本分类机制[J].计算机工程与应用,2004,40(28):174-176. 被引量：3
8温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57. 被引量：74
9周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
10包剑,冀常鹏,李义杰.基于矢量空间模型的文本自动分类系统研究[J].计算机系统应用,2005,14(3):47-49. 被引量：6

同被引文献42

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：4
4寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
5胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
6杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：241
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
8孔敬.本体学习：原理、方法与相关进展[J].情报学报,2006,25(6):657-665. 被引量：9
9孙晓霞,郑玉明,廖湖声.一种基于特征词句子环境的文本分类器[J].计算机应用研究,2007,24(2):116-119. 被引量：3
10初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14

引证文献6

1郭少友.基于词语上下文关系的文本自动分类方法研究[J].现代图书情报技术,2008(5):44-49.
2陈笑筑,王东,陈笑蓉.基于页面标签的网页分类研究[J].商场现代化,2009(19):100-101. 被引量：2
3宋志辉.一种改进的特征选择方法[J].贵州教育学院学报,2009,25(6):54-56. 被引量：1
4张玉芳,杨芬,熊忠阳,陈小莉.基于上下文的领域本体概念和关系的提取[J].计算机应用研究,2010,27(1):74-76. 被引量：14
5孙荣,刘宗田,廖涛,王利.应用本体对特征向量降维研究[J].计算机工程与设计,2010,31(17):3864-3867. 被引量：4
6赵耀,陈志敏.上下文广告中的一种文本分类方法[J].扬州大学学报（自然科学版）,2011,14(4):43-46.

二级引证文献21

1郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
2谷俊,严明,王昊.基于改进关联规则的本体关系获取研究[J].情报理论与实践,2011,34(12):121-125. 被引量：9
3傅鹂,黄利强,付春雷.一种改进的面向文本的领域概念筛选算法[J].计算机科学,2012,39(B06):253-256. 被引量：5
4李勇.中文网页分类研究综述[J].现代计算机,2012,18(15):3-7. 被引量：1
5张玉芳,舒万里,熊忠阳.结合对数似然比的领域本体概念和关系的提取[J].计算机工程与应用,2013,49(6):148-151. 被引量：5
6李江华,时鹏,胡长军.一种适用于复合术语的本体概念学习方法[J].计算机科学,2013,40(5):168-172. 被引量：10
7YANG Yuehua,DU Junping,ZI Lingling.Bootstrapping-based Automatic Acquisition of Domain Concepts for Ontology Construction[J].Chinese Journal of Electronics,2013,22(2):313-318. 被引量：2
8任南,张磊,边琳.基于本体的复杂产品项目WBS研究[J].计算机应用研究,2013,30(7):2061-2063. 被引量：5
9颜端武,李兰彬,曲美娟.基于N-gram复合分词的领域概念自动获取方法研究[J].情报理论与实践,2014,37(2):122-126. 被引量：5
10吴琴霞,高峰,刘永革.基于上下文语义的甲骨文领域概念抽取算法的研究[J].科学技术与工程,2014,22(26):255-258. 被引量：1

1高华玲.一种基于中文Deep Web的属性相似度计算方法[J].科技创新导报,2014,11(32):58-59.
2陈烈多杰,张有谊.基于词语的藏文文本中情感倾向性的研究[J].信息与电脑（理论版）,2015(6).
3陈炯,张永奎.一种基于词聚类的文本特征描述方法[J].计算机系统应用,2011,20(2):211-215. 被引量：4
4余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
5李飞亮.Red在词语构成中的十大作用[J].文教资料,2014(12):30-32.
6樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
7蒋盛益,郑琪,张倩生.基于聚类的特征选择方法[J].电子学报,2008,36(B12):157-160. 被引量：18
8聂卉.面向聚类主题的文本特征描述[J].情报学报,2009,28(4):524-529. 被引量：1
9贺忠堂,李新安,岳强,赵锋伟.一种基于突发事件应急管理的知识库引擎[J].信息技术,2014,38(9):60-62. 被引量：4
10吴红梅,牛耘.基于词性加权和单词相似性的蛋白质交互识别[J].计算机技术与发展,2015,25(12):6-9.

计算机科学

2007年第5期

浏览历史

内容加载中请稍等...

基于上下文关系的文本分类特征描述方法被引量：6

参考文献7

二级参考文献91

共引文献141

同被引文献42

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于上下文关系的文本分类特征描述方法 被引量：6

参考文献7

二级参考文献91

共引文献141

同被引文献42

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于上下文关系的文本分类特征描述方法被引量：6