基于词语关联的文本特征词提取方法被引量：10

Text feature word selection based on relationship between words

下载PDF

导出

摘要文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。 The description of text feature is one of the fundamental works of Natural Language Processing （NLP）. Some scholars often use the Vector Space Model （VSM） in description of text feature at present. VSM adopts statistical or experiential term weighting algorithm, term weight in each dimension of the text feature is its TF-IDF value. But TF-IDF is unable to emphasize the significance of key terms which contribute mainly to the content of a text. TF-IDF does not consider the relationship between words and is important in information extraction. In allusion to the disadvantage mentioned above, a new feature selection and term weighting approach based on keywords and word co-occurrence was proposed. Based on TF-IDF, the structure information and mutual information were employed to extract key words of the text; and word location, word dependence, word frequency, document frequency, and relationship between words in weighting a term were integrated. In SVM classification experiment, the approach outperforms the traditional TF-IDF approach with a boost in average precision.

作者廖浩李志蜀王秋野张意

机构地区四川大学计算机学院

出处《计算机应用》 CSCD 北大核心 2007年第12期3009-3012,共4页 journal of Computer Applications

关键词词语关联词共现率向量空间模型特征提取权重计算 word relationship word co-occurrence Vector Space Model （VSM） feature selection term weighting

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
2SAHAMI M. Using machine learning to improve information access [D]. Stanford, California: Stanford University, Computer Science Department, 1999.
3JOACHIMS T . Text categorization with support vector machines : Learning with many relevant features [C]// 10th European Conference on Machine Learning, LNCS 1398. Heidelberg: Springer-Verlag, 1998: 137-142.
4刘明吉.基于协同演化的文本特征获取算法[J].计算机工程,2005,31(4):85-87. 被引量：3
5晋耀红,苗传江.一个基于语境框架的文本特征提取算法[J].计算机研究与发展,2004,41(4):582-586. 被引量：15
6唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
7赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
8LEWIS D D. Feature selection and feature extraction for text categorization [C]// Proceedings of Speech and Natural Language Workshop. San Francsico: Morgan Kanfmann, 1992:212-217.
9鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
10王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40

二级参考文献46

1赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
2于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
3刘明吉.基于协同演化的文本特征获取算法[J].计算机工程,2005,31(4):85-87. 被引量：3
4唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
5张鹏飞,李赟,刘建毅,钟义信.基于相对词频的文本特征抽取方法[J].计算机应用研究,2005,22(4):23-26. 被引量：9
6[1]Anselm Spoerri. A visual tool for information retrieval. 1995. http://www.scils.rutgers.edu/～aspoerri/InfoCrystal
7[3]S Robertson. The TREC 2001 Filtering Track Report. 2001. http://trec.nist.gov/pubs/trec10/t10- proceedings.html
8Gudivada V N.Information Retrieval on the World Wide Web.IEEE Internet Computing,1 997,1(5):58-68
9Liu Mingji, Wang Xiufeng. A Knowledge Discovery Algorithm Based on Genetic Algorithm. The Third World Congress on Intelligent Control and Automation, IEEE, WCICA,2000
10Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页

共引文献207

1周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
2钟维明,黄永华,马徐琨.一种VRML标准材质的提取及合成方法[J].系统仿真学报,2009,21(S1):128-130.
3许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
4胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
5王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法[J].计算机与数字工程,2005,33(3):11-13. 被引量：4
8王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
9朱征宇,裴仰军,陈华月,付关友.个性化服务中用户近期兴趣视图的生成[J].计算机工程与设计,2005,26(4):951-954. 被引量：5
10谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13

同被引文献75

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2邢红兵.现代汉语词类使用情况统计[J].浙江师范大学学报（社会科学版）,1999,25(3):27-30. 被引量：5
3杨继本.认知心理学在《汉字教学字典》研编中的应用[J].心理科学,1995,18(1):43-47. 被引量：3
4夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
5冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
6寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
7韩布新,任雪松.汉语输入编码中简码字、词的合理选配[J].中文信息学报,1995,9(4):41-50. 被引量：1
8邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
9徐德智,郑春卉,K. Passi.基于SUMO的概念语义相似度研究[J].计算机应用,2006,26(1):180-183. 被引量：56
10邹娟,周经野,邓成.一种基于语义分析的中文特征值提取方法[J].计算机工程与应用,2005,41(36):164-166. 被引量：6

引证文献10

1周婷婷,慕德俊,袁源,周菁.基于Adaboost的电子邮件分类算法[J].机电一体化,2009,15(8):92-94.
2徐建民,刘清江,付婷婷,戴旭.基于量化同义词关系的改进特征词提取方法[J].河北大学学报（自然科学版）,2010,30(1):97-101. 被引量：5
3徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
4申莹,徐东平,庞俊.基于概念的中文博客情感极性聚类分析[J].计算机系统应用,2011,20(8):72-75. 被引量：1
5吴双,张文生,徐海瑞.基于词间关系分析的文本特征选择算法[J].计算机工程与科学,2012,34(6):140-145. 被引量：3
6张凤琴,王磊,张水平,王鹏,程超.一种基于聚类加权的文本特征生成算法[J].计算机应用研究,2013,30(1):146-148. 被引量：3
7文必龙,李乃峰,任秀英,冯翔,吕鹏全.基于概念关系的文本特征提取方法[J].计算机与数字工程,2014,42(11):2066-2068. 被引量：2
8刘金硕,邓莹莹,邓娟.网络食品安全的歧义性消解算法[J].计算机科学,2015,42(B11):7-9.
9赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：8
10刘锐,孙碧泽,龙云飞,王珊.词语序差的分布特点与文本间词汇异同[J].中文信息学报,2017,31(5):8-13.

二级引证文献50

1甄沐华,陈鹏,王坤,范子杨,王者.基于关键词挖掘的热线文本数据犯罪线索筛查方法研究[J].知识管理论坛,2022(5):539-548. 被引量：1
2夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
3高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
4郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
5徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
6陈振亚,陈光辉,徐建民.一种基于本体的文本特征选取方法[J].广西师范大学学报（自然科学版）,2011,29(1):143-146. 被引量：2
7俞扬信,刘瀛泽.基于概念网的用户个性化信息检索研究[J].情报杂志,2012,31(2):136-140. 被引量：1
8李敏,余正涛.结合概率型神经网络(PNN)和学习矢量量化(LVQ)算法的文本分类方法[J].计算机系统应用,2012,21(10):81-85. 被引量：2
9路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
10刘金岭,宋连友,范玉虹.基于语义信息的中文短信文本相似度研究[J].计算机工程,2012,38(13):58-60. 被引量：9

1香草.千里电脑一线牵你被遥控了吗?[J].电脑爱好者,2009(12):66-67.
2刘里,何中市.基于关键词语的文本特征选择及权重计算方案[J].计算机工程与设计,2006,27(6):934-936. 被引量：12
3许阳,刘功申,孟魁.基于句中词语间关系的文本向量化算法[J].信息安全与通信保密,2014,12(4):84-88. 被引量：4
4周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
5余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
6刘强,夏士雄,周勇,刘兵.基于两种加权方式的模糊聚类算法[J].计算机应用研究,2011,28(12):4437-4439. 被引量：2
7阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
8耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
9邓丹君,姚莉.基于改进TF-IDF的微博短文本特征词提取算法[J].软件导刊,2016,15(6):48-50. 被引量：7
10戴文华,焦翠珍,何婷婷.基于混合并行遗传聚类的文本特征抽取方法研究[J].计算机科学,2008,35(9):183-186. 被引量：1

计算机应用

2007年第12期

浏览历史

内容加载中请稍等...

基于词语关联的文本特征词提取方法被引量：10

参考文献13

二级参考文献46

共引文献207

同被引文献75

引证文献10

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于词语关联的文本特征词提取方法 被引量：10

参考文献13

二级参考文献46

共引文献207

同被引文献75

引证文献10

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于词语关联的文本特征词提取方法被引量：10