基于概念簇的文本向量构建方法被引量：2

Method of text vector construction based on concept cluster

下载PDF

导出

摘要为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类的效果,证明了基于概念簇的文本向量构建方法能提高文本向量对文本概念逼近的准确程度,同时也提高了不同类型文本之间的区分度。 To enhance the performance of the text vector,terms were clustered,which contained similar syntax or seman-tic feature,to construct concept cluster.The text vector would be transformed from term-space to concept-cluster-space to represent the original text.The experiment compared effects of text classification based on TF-IDF,IG,TF-IDF-IG,LSA,and their combinations with concept cluster.And the results show that,the text vector based on concept cluster improves the accuracy of text concept approaching,and advances the discriminating degree between different types of texts.

作者冯扬罗森林潘丽敏刘莉莉陈开江

机构地区北京理工大学信息与电子学院信息安全与对抗技术实验室

出处《通信学报》 EI CSCD 北大核心 2010年第S1期44-47,共4页 Journal on Communications

基金国家242计划基金资助项目(2005C48) 北京理工大学基础研究基金资助项目(20060142014) 北京理工大学研究生科技创新基金资助项目(GC200802)~~

关键词中文信息处理文本向量概念簇文本分类 chinese information processing text vector concept cluster text classification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1沈志斌,白清源.文本分类中特征权重算法的改进[J].南京师范大学学报（工程技术版）,2008,8(4):95-98. 被引量：14
2董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
3刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
4胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
5吴科,石冰,卢军,牛小飞.基于文本集密度的特征选择与权重计算方案[J].中文信息学报,2004,18(1):42-47. 被引量：8
6陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
7鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120

二级参考文献37

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2[1]Chien Chin Chen, Meng Chang Chen,Yeali Sun. PVA: A Self-Adaptive Personal View Agent [J]. Journal of Intelligent Information Systems, 18:2/3, 173-194, 2002.
3[2]Anandeep S. Pannu and Katia Sycara[J]. Learning Text Filtering Preferences.
4[3]C. Burckley, A. Singhal, and M. Mitra. New retrieval approaches using SMART[C]. In: D. K, Harmann, editor, Proceedings of the Fourth Text Retrieval Conference (TREC-4), Gaithersburg,1996.
5[4]S.E.Roberson and S.Walker,Okapi/ Keenbow at TREC8[C]. In: E.M. Voorhees and D.K.Harmann, editor,Proceedings of the Eighth Text Retrieval Conference(TREC-8),Gaithershurg,2000.
6[5]Kjersti Aas and Line Eikvil. Text Categorization : A Survey,1999 [Z].
7[6]Rong Jin , Christos Faloutsos and Alex G. Hauptmann Meta-scoring: Automatically Evaluating Term Weighting Schemes in IR without Precision -Recall [C]. In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 83-89. ACM Press, 2001.
8[2]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1 -47.
9[3]Lewis D D,Na(i)ve Bayes.The independence assumption in information retrieval[C]// The 10th European Conf on Machine Learning.New York:Springer-Verlag,1998.
10[4]Yiming Yang,Xin Liu.A re-examination of text categorization methods[C]// SIGIR' 99.New York:ACM Press,1999:42-49.

共引文献273

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
3高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
4赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
9李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
10鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1

同被引文献19

1解本政.TCBPL:一种高效文本分类新方法[J].计算机工程,2005,31(23):6-7. 被引量：2
2廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
4刘挺,马金山,李生.基于词汇支配度的汉语依存分析模型[J].软件学报,2006,17(9):1876-1883. 被引量：24
5张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
6曾志雄.一种有效的基于划分和层次的混合聚类算法[J].计算机应用,2007,27(7):1692-1694. 被引量：15
7段湘煜,赵军,徐波.基于动作建模的中文依存句法分析[J].中文信息学报,2007,21(5):25-30. 被引量：11
8Zhang Wen,Yoshida T,Tang Xijin.Text Classification Basedon Multi-word with Support Vector Machine[J].Knowledge-based Systems,2008,21(8):879-886.
9Wang Taiyue,Chiang Huei-Min.One-against-one FuzzySupport Vector Machine Classifier:An Approach to TextCategorization[J].Expert Systems with Applications,2009,36(4):10030-10034.
10Yang Yiming,Pedersen J O.A Comparative Study on FeatureSelection in Text Categorization[C]//Proc.of the 14thInternational Conference on Machine Learning.Nashville,USA:Morgan Kaufmann Press,1997:412-420.

引证文献2

1孟海东,刘小荣.基于聚类分析的图模型文档分类[J].计算机应用与软件,2012,29(1):171-174. 被引量：1
2李志彤,易军凯.中文文本的意群分类算法[J].计算机工程,2013,39(8):204-207.

二级引证文献1

1郭平,刘波,沈岳.农业云大数据自组织推送关键技术综述[J].软件,2013,34(3):1-6. 被引量：24

1杨素平.网络文学刍议[J].江苏石油化工学院学报（哲学社会科学版）,2002,3(4):37-39. 被引量：1
2刘剑.数字媒介下文本概念的嬗变[J].学术界,2012(6):133-139. 被引量：3
3张映海.基于概念树扩展的中文文本检索研究[J].计算机工程与应用,2008,44(26):154-157. 被引量：5
4石晶,戴国忠.基于知网的词汇集聚分析[J].现代图书情报技术,2008(9):41-46.
5董洋溢,李伟华,于会.基于混合余弦相似度的中文文本层次关系挖掘[J].计算机应用研究,2017,34(5):1406-1409. 被引量：19
6文必龙,李乃峰,任秀英,冯翔,吕鹏全.基于概念关系的文本特征提取方法[J].计算机与数字工程,2014,42(11):2066-2068. 被引量：2
7黄河燕,陈肇雄.基于多策略分析的复杂长句翻译处理算法[J].中文信息学报,2002,16(3):1-7. 被引量：11

通信学报

2010年第S1期

浏览历史

内容加载中请稍等...

基于概念簇的文本向量构建方法被引量：2

参考文献7

二级参考文献37

共引文献273

同被引文献19

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于概念簇的文本向量构建方法 被引量：2

参考文献7

二级参考文献37

共引文献273

同被引文献19

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于概念簇的文本向量构建方法被引量：2