基于文本集密度的特征选择与权重计算方案被引量：8

Feature Selection and Weighting Scheme Based on Text Set Density

下载PDF

导出

摘要在信息检索的向量空间模型中 ,文本被形式化表示为由词语权重组成的向量。因此如何让这种向量尽量准确的有效的表示出文本内容一直是该模型中的基础性问题。在这篇论文中 ,我们提出了一种基于文本集密度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献衡量该词的价值的方法。使用这种方法 ,我们能找出不损失文本有效信息的最小特征词语集 ,并且创造出更为合理权重计算方案。在文中还用了一种新的衡量权重好坏的标准———元打分法。 In vector space model of information retrieval,a text is represented as a weighted vector which is composed of terms weighting of the text. And it is a fundamental issue to how to represent the content of a text as exactly and efficiently as possible. In this paper, we will propose a method of feature selection and weighting scheme based on text set density,which is a way of measure of contribution to the text set density about some word. By the means, we can find the set containing least elements, which can represent all valuable information of a text, and invent a more reasonable weighting scheme. And this paper presents a new measure standard of the sense of goodness of some weighting schemes: meta scoring. Through the criterion, it is proved that the approach helps.

作者吴科石冰卢军牛小飞

机构地区山东大学计算机科学与技术学院山东轻工业学院物理系

出处《中文信息学报》 CSCD 北大核心 2004年第1期42-47,共6页 Journal of Chinese Information Processing

基金山东省教育厅项目 (J0 0F0 4 )

关键词计算机应用中文信息处理信息检索文本集密度权重计算方案元打分法 computer application Chinese information Processing information retrieval text set density weighting scheme meta scoring

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1[1]Chien Chin Chen, Meng Chang Chen,Yeali Sun. PVA: A Self-Adaptive Personal View Agent [J]. Journal of Intelligent Information Systems, 18:2/3, 173-194, 2002.
2[2]Anandeep S. Pannu and Katia Sycara[J]. Learning Text Filtering Preferences.
3[3]C. Burckley, A. Singhal, and M. Mitra. New retrieval approaches using SMART[C]. In: D. K, Harmann, editor, Proceedings of the Fourth Text Retrieval Conference (TREC-4), Gaithersburg,1996.
4[4]S.E.Roberson and S.Walker,Okapi/ Keenbow at TREC8[C]. In: E.M. Voorhees and D.K.Harmann, editor,Proceedings of the Eighth Text Retrieval Conference(TREC-8),Gaithershurg,2000.
5[5]Kjersti Aas and Line Eikvil. Text Categorization : A Survey,1999 [Z].
6[6]Rong Jin , Christos Faloutsos and Alex G. Hauptmann Meta-scoring: Automatically Evaluating Term Weighting Schemes in IR without Precision -Recall [C]. In: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 83-89. ACM Press, 2001.

同被引文献57

1刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
2刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
3胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
4刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
5董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
6余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
7JAIN A K, MURTY M N, FLYNN P J. Data clustering: a review [ J ]. ACM Computing Surveys, 1999, 31 (3) : 264 -323.
8ANDREAS H. Wordnet improves text document clustering [ C]//Proceedings of the SIGIR 2003 Semantic Web Workshop. Toronto, Canada: ACM, 2003: 296-304.
9MORRIS J, HIRST G. Lexical cohesion computed by thesaural relations as an indicator of the structure of text [J]. Computational Linguistics, 1991, 17(1) : 21 -48.
10HASSAN A, AMAN K, MIKAKO N, et al. Structured and unstructured document summarization: design of a commercial summarizer using lexical chains [ C ]//Proceedings of the 7th International Conference on Document Analysis and Recognition. Edinburgh, Scotland, UK: IEEE Computer Society Press, 2003 : 1147 - 1150.

引证文献8

1高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
2刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
3乌庆敏,杨思春.基于潜在语义分析的智能答疑系统研究与实现[J].计算机技术与发展,2008,18(9):251-252. 被引量：2
4冯扬,罗森林,潘丽敏,刘莉莉,陈开江.基于概念簇的文本向量构建方法[J].通信学报,2010,31(S1):44-47. 被引量：2
5刘铭,刘远超,王晓龙.主题分析技术在文档聚类中的应用[J].哈尔滨工业大学学报,2009,41(3):53-57. 被引量：2
6余永红,柏文阳.基于特征项权重自动分解的文本聚类[J].计算机工程,2011,37(11):25-27. 被引量：5
7陈江涛,张金隆,张亚军.在线商品评论有用性影响因素研究:基于文本语义视角[J].图书情报工作,2012,56(10):119-123. 被引量：17
8陈玮,卢佳伟.基于特征矩阵优化与数据降维的文本聚类算法[J].数据采集与处理,2021,36(3):587-594. 被引量：11

二级引证文献58

1罗进军.当前计算语言学研究的发展态势[J].湖南工业职业技术学院学报,2006,6(4):105-107.
2张桂芸,刘洋,王元元.基于模糊认知图的文本分类推理算法[J].计算机工程与应用,2007,43(12):155-158. 被引量：4
3张薇娟,张桂芸.基于模糊认知图的文本分类模型研究[J].天津科技,2007,34(4):50-52.
4任克强,张国萍,赵光甫.基于向量空间模型的特征抽取技术分析[J].科技广场,2007(9):16-18. 被引量：1
5刘希宋,喻登科,李玥.基于客户知识的客户CABOSFV聚类[J].情报杂志,2008,27(2):7-9. 被引量：3
6李静,宋振明.一种基于概念匹配度模型的中文问答系统[J].河北工程大学学报（自然科学版）,2008,25(2):101-103.
7乌庆敏,杨思春.基于潜在语义分析的智能答疑系统研究与实现[J].计算机技术与发展,2008,18(9):251-252. 被引量：2
8周鑫,张化详.基于相似粗糙集和模糊认知图的文本分类研究[J].计算机工程与设计,2008,29(21):5537-5539. 被引量：4
9季铎,郑伟,蔡东风.潜在语义索引中特征优化技术的研究[J].中文信息学报,2009,23(2):69-76. 被引量：7
10乌庆敏,方少卿,谢亮亮.一种加权的KNN中文问句分类方法研究[J].安徽广播电视大学学报,2010(3):126-128. 被引量：1

1吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
2曹慧.基于AMTW算法的文本特征词权值计算[J].山东大学学报（工学版）,2004,34(3):92-95.
3王卫玲,孔波,初建崇,杨玫.一种新的用于文本分类的特征选择算法[J].信息技术与信息化,2009(6):39-41.
4张锋,樊孝忠,许云.基于遗传算法的文本聚类特征选择[J].华南理工大学学报（自然科学版）,2004,32(z1):133-136. 被引量：3
5刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
6于瑞萍,张明.中文文本自动分类中特征词选择算法研究[J].硅谷,2009,2(20). 被引量：1
7王萌,俞士汶.基于量词的名词概念获取研究[J].中文信息学报,2014,28(5):60-65.
8段荣伟,付立冬,夏广锋.语义分析在水环境领域的应用研究[J].电子技术与软件工程,2015(22):263-264.
9高蕾娜,史延枫,李艳丹.基于特定领域的加权语义相似度算法研究[J].成都大学学报（自然科学版）,2015,34(3):259-261. 被引量：1
10魏芳芳,段青玲,肖晓琰,张磊.基于支持向量机的中文农业文本分类技术研究[J].农业机械学报,2015,46(S1):174-179. 被引量：27

中文信息学报

2004年第1期

浏览历史

内容加载中请稍等...

基于文本集密度的特征选择与权重计算方案被引量：8

参考文献6

同被引文献57

引证文献8

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于文本集密度的特征选择与权重计算方案 被引量：8

参考文献6

同被引文献57

引证文献8

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于文本集密度的特征选择与权重计算方案被引量：8