基于改进的TF-IDF算法及共现词的主题词抽取算法被引量：17

A method of extracting subject words based on improved TF-IDF algorithm and co-occurrence words

下载PDF

导出

摘要信息主题的抽取是快速定位用户需求的基础任务,主题词抽取时主要存在三个问题:一是词语权重的计算,二是词语间关系的度量,三是数据维度灾难.在计算词权重时首先利用互信息确定共现词对,与词频、词性、词位置信息非线性组合,然后,根据词权重构建文档—共现词矩阵并建立潜在语义分析(Latent Semantic Analysis,LSA)模型.该方法借助LSA模型的奇异值分解(Singular Value Decomposition,SVD)将文档—共现词矩阵映射到潜在语义空间,不仅实现数据降维,而且获得低维度的文档相似矩阵.最后,对文档相似矩阵进行k-means聚类,在同类文档中选出词权重最大的前几对共现词,作为该类文章的主题词.对比基于TF-IDF(Term Frequency-Inverse Document Frequency)和共现词抽取主题词的实验,该算法的准确度分别提高了19%和10%. The extraction of information topics is a fundamental task for quickly locating users＇ needs,and there are three main problems in the extraction of the keywords,which are the calculation of the weight of the word,the measure of the relationship between the words and the data dimension of the disaster,respectively.When it comes to weight computing of the word,the mutual information should be used firstly to determine the covariate word pairs,which is with the non-linear combination of the word frequency,part of speech and the word position information.Then LSA（Latent Semantic Analysis）can be established,according to rebuilt document-co-occurrence matrix.With the SVD（Singular Value Decomposition）of the LSA model,the document-lexical space is mapped to the latent semantic space.This will not only lead to the data dimensionality reduction,but obtains the document similarity matrix with low dimension.Finally,using k-means,our approach clusters the similar matrix of the document,and selects the first few co-occurrence wordswith the largest mutual information as the keywords of the article.Compared with a method of extracting subject words based on improved TF-IDF（Term Frequency-Inverse Document Frequency）algorithm or co-occurrence words,our approach improves the accuracy rate by 19% and 10% respectively.

作者公冶小燕林培光任威隆张晨张春云

机构地区山东财经大学计算机科学与技术学院曲阜师范大学软件学院山东大学计算机学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2017年第6期1072-1080,共9页 Journal of Nanjing University（Natural Science）

基金教育部人文社会科学研究项目(15YJAZH042) 山东省本科高校教学改革研究重点项目(2015Z058)

关键词共现词互信息语义分析(LSA) 奇异值分解(SVD) TERM Frequency-Inverse Document Frequency(TF-IDF) co-occurrence words, mutual information, Latent Semantic Analysis （LSA）, Singular Value Decomposition （SVD） ,Term Frequency-Inverse Document Frequency（TF-IDF）

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：29
2钱强,庞林斌,高尚.一种基于词共现图的受限领域自动问答系统[J].计算机应用研究,2013,30(3):841-843. 被引量：16
3白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
4黄兴,刘小青,曹步清,唐明董,刘建勋.融合K-Means与Agnes的Mashup服务聚类方法[J].小型微型计算机系统,2015,36(11):2492-2497. 被引量：8
5韩普,王东波,刘艳云,苏新宁.词性对中英文文本聚类的影响研究[J].中文信息学报,2013,27(2):65-73. 被引量：11

二级参考文献42

1苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
2王树西.问答系统:核心技术、发展趋势[J].计算机工程与应用,2005,41(18):1-3. 被引量：27
3耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：29
4吴晨,张全.基于内容分析的中文问答处理算法及系统实现[J].计算机应用研究,2006,23(9):139-142. 被引量：4
5Luhn H P. A statistical approach to the mechanized encoding and searching of literary information. IBM Journal of Research and Development,1957,1(4) : 309-317.
6Luhn H P. The automatic creation of literature abstract. IBM Journal of Research and Development, 1958,2(8). 159-165
7Salton G, Yang C S. On the specification of term values in automatic indexing. Journal of Documentation, 1973,29(4): 351-372.
8Cohen J. Highlights: Language-and domain-in-dependent automatic indexing terms for abstracting. Journal of American Society for Information Science, 1995,46(3): 162-174.
9Written I H, Paynter G W, Frank E, et al.KEA: Practical automatic keyphrase extraction.Proceedings of the Fourth ACM Conference on Digital Libraries. 1999.254-255.
10Tzeras K, Hartmann S. Automatic indexing based on Bayesian inference networks. Procceedins of Interuational ACM SIGIR Conference Research and Development in Information Retrieval, Inference Networks. 1993, 22-34.

共引文献70

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
3耿焕同,李杰.范例推理在文本自动分类中的应用研究[J].情报理论与实践,2007,30(6):837-840. 被引量：1
4任克强,赵光甫,张国萍.基于带权语言网络的网页关键词抽取[J].计算机工程与应用,2008,44(8):155-157. 被引量：5
5耿焕同,毕硕本.范例推理在网络自动答疑系统中应用[J].计算机工程与应用,2008,44(3):31-33. 被引量：7
6聂卉.面向聚类主题的文本特征描述[J].情报学报,2009,28(4):524-529. 被引量：1
7朱倩,程显毅,丁镠,高飞.基于自然语言处理技术的网络博客版权保护双水印算法[J].南京大学学报（自然科学版）,2010,46(2):140-148. 被引量：1
8蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
9刘兴林,彭宏,马千里.基于增量词集频率的文本主题词提取算法研究[J].计算机应用研究,2010,27(9):3237-3238. 被引量：4
10常鹏,马辉.高效的短文本主题词抽取方法[J].计算机工程与应用,2011,47(20):126-128. 被引量：14

同被引文献161

1殷小丽.新时代网络新闻舆论的时代特征与引导策略[J].传媒论坛,2019,2(9):74-75. 被引量：1
2王俊超,刘晨帆,徐明世,纪山,兰伟.语义相似性度量技术在地名匹配研究中的应用[J].辽宁工程技术大学学报（自然科学版）,2012,31(6):871-874. 被引量：6
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
5曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：82
6郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
7施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：217
8丁龙远.面向应用的地理空间数据整合方法研究[J].现代测绘,2009,32(3):30-31. 被引量：6
9蒋捷,黄蔚,卢卫华,郑新燕.地理信息公共服务平台地理实体数据建模研究[J].地理信息世界,2009,7(4):11-18. 被引量：47
10林洋港,陈恩红.文本分类中基于概率主题模型的噪声处理方法[J].计算机工程与科学,2010,32(7):89-92. 被引量：9

引证文献17

1吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：1
2刘一宁,郭功举,林木棵,王琳.基于位置描述的地理实体信息融合方法[J].测绘通报,2021(S01):65-69. 被引量：5
3尤垂桔,罗媛云,何月娟.Web大数据环境下P-信息聚合体生成及智能推送[J].宜春学院学报,2018,40(6):30-34.
4刘家成,王艺憬,孙燕红.基于TF-IDF算法和K-means聚类的商品评论与价格波动相关性研究——以ThinkPad电脑为例[J].科技创业月刊,2018,31(7):45-49. 被引量：2
5贾君枝,赵宇飞.Wikidata与名称规范档数据聚合实现[J].情报科学,2018,36(11):72-77. 被引量：5
6朱明,何永宁,吴博.广西农业信息地理匹配引擎设计与实现[J].南方农业学报,2019,50(1):201-207.
7张根宇.基于TF-IDF和余弦相似度的文本相似度算法研究和优化策略[J].中国科技成果,2019,20(16):25-26. 被引量：1
8赵金楼,朱辉,刘馨.基于改进TFIDF的图书馆知识群体特征提取研究[J].系统科学与数学,2019,39(9):1450-1461. 被引量：5
9周友武,童超,桂良明,陈田,王文彬.物资质量监督应用场景的设计及其应用[J].江西电力,2019,0(12):22-24. 被引量：2
10李晋源,康雁,杨其越,王沛尧,崔国荣.面向方面记忆网络的IT产品细粒度情感分析[J].计算机工程与应用,2020,56(3):159-164. 被引量：3

二级引证文献36

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2王志红,曹树金,王连喜,包丹宇.万物互联时代面向智慧数据的聚合型研究:内涵、途径及启示[J].情报科学,2022,40(12):28-35. 被引量：1
3丁亚龙,谌云莉.基于记忆增强和知识迁移的方面级用户评论情感分析[J].计算机应用研究,2020,37(S02):31-33. 被引量：1
4王琳,赵峰,刘春.“多测合一”的空间地理实体智能提取和构建方法[J].测绘通报,2022(S02):245-249. 被引量：4
5王昱,许明玉.在线评论内容对家电价格的影响研究[J].现代商业,2019,0(22):64-68.
6王奕翔,陈济颖,王晟全,李昂.基于改进型RF-BP神经网络的房地产价格预测[J].工业控制计算机,2019,32(10):122-124. 被引量：4
7王奕翔,李昂,王晟全.基于改进型BP神经网络的房地产预警[J].物联网技术,2019,9(12):39-42. 被引量：1
8赵晓平,马文,刘雪萍,陈达.一种面向科技项目文本的相似度度量方法[J].电子技术应用,2020,46(5):31-34. 被引量：2
9郑建灵,张艳玲,田俊雄,黄子豪,梁茵.校园舆情热点问题提取与分析[J].软件导刊,2020,19(4):61-66. 被引量：1
10石凤贵.中文文本分词及其可视化技术研究[J].现代计算机,2020,26(12):131-138. 被引量：13

1于海燕,陆慧娟,郑文斌.情感分类中基于词性嵌入的特征权重计算方法[J].计算机工程与应用,2017,53(22):121-125. 被引量：5
2郭晓明,孙丹.基于TF-IDF逻辑回归算法的Web攻击行为检测方法研究[J].科技广场,2017(6):111-115. 被引量：2
3罗海蛟,柯晓华.基于改进的LDA模型的中文主观题自动评分研究[J].计算机科学,2017,44(B11):102-105. 被引量：9
4李军政,黄海,黄瑞阳,王康利.基于卡方检验和SVM的用户搜索画像技术研究[J].电子设计工程,2017,25(24):6-10. 被引量：4
5李晓飞,赵成伟,韩松任.基于投影最近邻的海量高维数据查询算法[J].信息记录材料,2017,18(12):1-2. 被引量：1
6胡亮,夏磊,李伟.基于改进TF-IDF算法的关键词抽取系统[J].厦门理工学院学报,2017,25(5):67-72. 被引量：2
7吴钟强,张耀文,商琳.基于语义特征的多视图情感分类方法[J].智能系统学报,2017,12(5):745-751. 被引量：3
8Yang Chunxiang.Strategies For the Translation of Official Document——Taking the Outline of China Tumen River Regional Cooperation Development Plan as an Example[J].校园英语,2017(40):207-208.
9赵明,杜会芳,董翠翠,陈长松.基于word2vec和LSTM的饮食健康文本分类研究[J].农业机械学报,2017,48(10):202-208. 被引量：42
10吴崧,黄红霞.《现代汉语词典》对几个词语词性的认定[J].福建江夏学院学报,2017,7(5):92-97. 被引量：1

南京大学学报（自然科学版）

2017年第6期

浏览历史

内容加载中请稍等...

基于改进的TF-IDF算法及共现词的主题词抽取算法被引量：17

参考文献5

二级参考文献42

共引文献70

同被引文献161

引证文献17

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于改进的TF-IDF算法及共现词的主题词抽取算法 被引量：17

参考文献5

二级参考文献42

共引文献70

同被引文献161

引证文献17

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于改进的TF-IDF算法及共现词的主题词抽取算法被引量：17