基于远程学习的关键词提取技术研究被引量：1

Research on Extraction Technology Based on Remote Learning

下载PDF

导出

摘要伴随着互联网技术的发展,文本数量的爆发式增长带来了处理文本数据的一些困扰,传统的文本聚类以及关键词提取的技术不能很好解决对大数据进行精准筛选的需求。对此,提出利用基于LDA算法的潜在语义模型来对文本进行文本聚类,得到了对文本进行聚类的结果和LDA提取出来的主题词语;然后利用FP-growth算法对LDA算法的结果进行分析,对文本进行挖掘,得到中文关键词集;借助网络知识库的思想,利用百度百科提出了汉语比对算法对中文关键词集进行筛选,过滤掉了很多噪声词。实验表明,本文的方法可以很好地对给定的中文语料文本进行文本聚类和关键词提取,特别是在增加了基于百度百科远程学习的筛选之后,系统的准确率有大幅度的提高。 With the development of Internet technology,the explosive growth in the number of text has brought some troubles in processing text data.The traditional text clustering and keyword extraction technology cannot solve the need for precise screening of large data very well.This paper combines text clustering and keyword extraction.The text clustering based on LDA algorithm is proposed.The results of clustering and the subject terms extracted from LDA are obtained.Then the FP-growth algorithm is used to analyze the results of the LDA algorithm,and the text is mined.In this paper,according to the idea of using the network knowledge base,the Baidu encyclopedia is used to put forward the Chinese comparison algorithm to select the Chinese keyword set and filter out a lot of noise words.Experimental results show that the method can cluster text and extract keyword perfectly for a given Chinese corpus by comparing with the existing method.On the basis of increasing the word selection of Baidu encyclopedia,the accuracy of the system is greatly improved.

作者曹聪慧兰强侯群漆为民 CAO Cong-hui;LAN Qiang;HOU Qun;QI Wei-min(School of Artificial Intelligence,Jianghan University,Wuhan 430056,Hubei;Dongfeng Motor Finance Co.,Ltd.,Wuhan 430056,Hubei)

机构地区江汉大学人工智能学院东风汽车财务有限公司

出处《电脑与电信》 2021年第8期1-5,9,共6页 Computer & Telecommunication

基金湖北省教育厅科学研究计划指导性项目,项目编号:B2020224 江汉大学湖北省重点学科管理科学与工程2019年度开放性课题,项目编号:ZDXK2019YB05 江汉大学高层次人才科研启动经费,项目编号:2019032。

关键词文本聚类关键词提取 LDA算法远程学习汉语比对算法 text clustering keyword extraction LDA algorithm remote learning Chinese alignment algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报（理学版）,2014,49(9):129-134. 被引量：29
2方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
3钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35

二级参考文献41

1[1]中国社会科学研究评价中心.中文社会科学引文索引[EB/OL].[2008-08-25].http://cssci.nju.edu.cn/introduce.htm.
2[1]Chien Lee-Feng.PAT-tree-based keyword extraction for Chinese information retrieval[C]//Proceedifigs of the ACM SIGIR Intemational Conference on Information Retrieval,1997:50-59
3[2]Yang Wenfen,Li Xing.Chinese keyword extraction based on max-duplicated strings of the documents[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2002
4[3]Zhang Kuo,Xu Hui.Tang Jie,et al.Keyword extraction usingsupport vector machine[C]//Proceedings of the 7th International Conference on Web-Age Information Management,Hong Kong,China,2006:85-96
5[4]Olena M,Witten I H.Thesaurus-based index term extraction for agricultural documents[C]//Proceedings of the 6th Agricultural Ontology Service Workshop at EFITA/WCCA.Vila Real;IEEE Press,2005:11-22
6[5]Peter T.Learning to extract keyphrases from text[R].OTTAWA:National Research Council,1999:1-43
7[7]俞鸿魁,张华平,刘群.基于角色标注的中文机构名识别[C]//Proceedings of the 20th International Conference on Computer Processing of Oriental Languages(ACOL),2003
8[9]中国科学院计算技术研究所.汉语词法分析系统ICTCLAS[EB/OL].[2008-03-10].http://www.i3s.ac.err/index.htm
9[10]詹卫东.中文信息处理基础[EB/OL].[2008-03-10].http://ccl.pku.edu.cn/doubffire/Course/Chinese%20 Information%20Processing/2002_2003_1.htm
10[11]吕震宇.SharplCTCLAS分词系统[EB/OL].[2008-03-10].http://www.cnblogs.com/zhenyulu/category/85598.html

共引文献126

1熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
2化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
3蒋子龙,高曙.基于向量空间模型的Web服务描述相似度计算的研究与实现[J].咸阳师范学院学报,2007,22(6):52-54. 被引量：1
4王素格,魏英.停用词表对中文文本情感分类的影响[J].情报学报,2008,27(2):175-179. 被引量：22
5唐坚刚,熊国萍.自适应不良网页过滤模式的研究与实践[J].计算机工程与设计,2008,29(20):5324-5326. 被引量：1
6崔彩霞.停用词的选取对文本分类效果的影响研究[J].太原师范学院学报（自然科学版）,2008,7(4):91-93. 被引量：7
7杨涛.基于Web内容挖掘的个性化学习系统[J].科学技术与工程,2009,9(6):1624-1627. 被引量：1
8张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7
9邓箴,包宏.改进的关键词抽取方法研究[J].计算机工程与设计,2009,30(20):4677-4680. 被引量：4
10王舜燕,邱昌程,宁海波,张梅芬.构件搜索中需求描述关键词提取方法[J].计算机与数字工程,2009,37(11):36-39.

同被引文献3

1张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：43
2牛永洁,田成龙.融合多因素的TFIDF关键词提取算法研究[J].计算机技术与发展,2019,29(7):80-83. 被引量：26
3邱均平,沈超.基于LDA模型的国内大数据研究热点主题分析[J].现代情报,2021,41(9):22-31. 被引量：31

引证文献1

1苏婧琼,苏艳琼.基于LDA和TF-IDF的关键词提取算法研究[J].长江信息通信,2024,37(1):78-80. 被引量：2

二级引证文献2

1唐勇,桑丽丽.基于LDA模型对大学生就业信息的主题挖掘[J].电脑知识与技术,2024,20(13):84-87.
2罗志强.基于计算机技术的标准化信息管理系统设计[J].电脑编程技巧与维护,2024(9):87-90.

1李飞雪,徐鑫雨.《新闻联播》在“抖音”上的视听创新--以“媒介间性”为视角[J].艺术传播研究,2020(3):114-119.
2秦玉芳,黎若楠,刘颖旭.新闻数据可视化工具“词云”在新媒体中的创新实践[J].中国传媒科技,2021(9):46-49. 被引量：3
3高凌飞,王海龙,王海涛,刘强,张鲁洋,王怀斌.基于轻量级卷积神经网络的人证比对[J].南京航空航天大学学报,2021,53(5):751-758. 被引量：4
4王艳.基于领域类别信息的关键词提取技术[J].大众标准化,2021(18):212-213.
5严李强,田博,梁炜恒,杨欢欢.藏文文本相似度计算方法研究[J].高原科学研究,2021,5(3):70-77. 被引量：2
6吕明伦,王国刚,潘多涛,袁德成.葡萄酒评论信息的量化学习建模研究[J].沈阳理工大学学报,2021,40(4):42-47.

电脑与电信

2021年第8期

浏览历史

内容加载中请稍等...

基于远程学习的关键词提取技术研究被引量：1

参考文献4

二级参考文献41

共引文献126

同被引文献3

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于远程学习的关键词提取技术研究 被引量：1

参考文献4

二级参考文献41

共引文献126

同被引文献3

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于远程学习的关键词提取技术研究被引量：1