基于词频统计规律的文本数据预处理方法被引量：11

Text Data Preprocessing Based on Term Frequency Statistics Rules

下载PDF

导出

摘要在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。 In age of big data,it is a severe problem that feature terms are faced with＂high-dimension and sparse＂challenge in text mining.Contradiction between enormous scale of terms and scarce of features will cause high-time-space complexity and poor efficiency,and restricts the efficiency of text mining seriously.Thus,it is crucial to preprocess data before mining text.Terms-dividing and stop-words-deleting are operated merely in data preprocessing of traditional text mining algorithms.In order to improve process of data preprocessing,data preprocessing algorithm based on term frequency statistics rules（DPTFSR）was proposed.To begin with,expression about number of terms with identical frequency is deduced based on Zif＇s Law and rule of maximum area.What＇s more,regularities of distribution based on terms with identical frequency is explored.It is discovered that proportion of low-frequency terms in documents reach up to 2/3,but there is little relevancy between them.Lastly,data is preprocessed based on terms frequency statistics rules.Low-frequency terms are deleted,and features dimension is decreased greatly.Correctness of term frequency statistics rules and validity of algorithm DPTFSR are verified on data sets from Reuters-21578 and 20-Newgroups.Experimental results show that accuracy,precision,recall and F1 measure are increased,and running time is shortened obviously.Thus,efficiency of text mining is significantly enhanced.

作者池云仙赵书良罗燕高琳赵骏鹏李超

机构地区河北师范大学数学与信息科学学院河北师范大学河北省计算数学与应用数学重点实验室

出处《计算机科学》 CSCD 北大核心 2017年第10期276-282,288,共8页 Computer Science

基金国家自然科学基金项目(71271067) 国家社科基金重大项目(13&ZD091) 河北省高等学校科学技术研究项目(QN2014196) 河北师范大学硕士基金(xj2015003)资助

关键词大数据文本挖掘数据预处理词频统计 Big data,Text mining,Data preprocessing,Term frequency statistics

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1韩军,范举,周立柱.一种语义增强的空间关键词搜索方法[J].计算机研究与发展,2015,52(9):1954-1964. 被引量：3
2任鹏杰,陈竹敏,马军,隋雪芹,吴凯.一种综合语义和时效性意图的检索结果多样化方法[J].计算机学报,2015,38(10):2076-2091. 被引量：7
3丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：119
4胡骏,范举,李国良,陈姗姗.空间数据上Top-k关键词模糊查询算法[J].计算机学报,2012,35(11):2237-2246. 被引量：15

二级参考文献190

1Zhou Y, Xie X, Wang C, Gong Y, Ma W-Y. Hybrid index structures for location-based web search//Proceedings of the CIKM. Bremen, Germany, 2005 :155-162.
2Chen YY, Suel T, Markowetz A. Efficient query processing in geographic web search engines//Proceedings of the SIGMOD. Chicago, IL, 2006:277-288.
3Felipe I D, Hristidis V, Rishe N. Keyword search on spatial databases//Proeeedings of the ICDE. Caneun, Mexico, 2008:656-665.
4Zhang D, Chee Y M, Mondal A, Tung A K H, Kitsuregawa M. Keyword search in spatial databases: Towards searching by document//Proceedings of the ICDE. Shanghai, China, 2009:688-699.
5Cong G, Jensen C S, Wu D. Efficient retrieval of the top-kmost relevant spatial Web objects. Proceedings of the VLDB Endowment, 2009: 2(1): 337-348.
6Yao B, Li F, Hadjieleftheriou M, Hou K. Approximate string search in spatial databases//Proceedings of the ICDE. Long Beach, California, USA, 2010:545-556.
7Cao X, Cong G, Jensen C S. Retrieving top-k prestige-based relevant spatial Web objects. Proceedings of the VLDB Endowment, 2010, 3(1):373-384.
8Wu D, Yiu M L, Jensen C S, Cong G. Efficient continuously moving top-k spatial keyword query processing//Proceedings of the ICDE. Hannover, Germany, 2011:541-552.
9Cao X, Cong G, Jensen C S, Ooi B C. Collective spatial key- word querying//Proceedings of the SIGMOD Conference. Athens, Greece, 2011: 373-384.
10Roy S B, Chakrabarti K. Location aware type ahead search on spatial databases: Semantics and efficiency//Proceedings of the SIGMOD Conference. Athens, Greece, 2011:361-372.

共引文献140

1张辉,何庆勇,惠小珊,但文超,孟培培.蒲辅周先生治疗湿证用药规律的数据挖掘研究[J].世界科学技术-中医药现代化,2021,23(9):3195-3201. 被引量：1
2王海艳,李思瑞.基于组合上下文的服务替换方法[J].通信学报,2014,35(9):57-66. 被引量：2
3张振华,吴开超.基于Twitter的流感疫情可视化系统[J].计算机系统应用,2015,24(3):69-74. 被引量：6
4赵小明,张群,岳昆.基于静电场理论和PageRank算法的微博用户相关性分析[J].云南大学学报（自然科学版）,2015,37(2):207-214. 被引量：2
5吕琳,刘培玉.一种基于C4.5决策树算法的Web页面分类算法[J].山东师范大学学报（自然科学版）,2015,30(2):20-23. 被引量：1
6张振华,吴开超.一种分布式Twitter数据处理方案及应用[J].计算机应用研究,2015,32(7):2073-2077. 被引量：3
7丛颖,刘其成,张伟.一种基于Apriori的微博推荐并行算法[J].计算机应用与软件,2015,32(8):229-233. 被引量：2
8彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
9王巍,党甄甄,刘美爽.数据挖掘技术在食品配餐中的应用[J].美食研究,2015,32(3):33-36. 被引量：1
10唐浩浩,席耀一,周杰,郭志刚,陈刚.基于维基知识的微博事件追踪方法[J].计算机应用与软件,2015,32(10):21-25. 被引量：1

同被引文献109

1温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57. 被引量：74
2胡子祥.高等教育顾客感知服务质量的实证研究[J].西南师范大学学报（人文社会科学版）,2006,32(1):135-141. 被引量：28
3马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171. 被引量：512
4张晓加,毕家正.文献计量学经典定律的相互关系[J].情报学报,1996,15(4):306-312. 被引量：6
5李利群.俄罗斯文学作品标题的功能与结构[J].外语学刊,2006(6):54-57. 被引量：4
6卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
7文庭孝.知识单元的演变及其评价研究[J].图书情报工作,2007,51(10):72-76. 被引量：65
8李永利,于滨.天麻粉片改善睡眠的实验研究[J].中国医药导报,2009,6(16):39-41. 被引量：8
9张义,权伍成,尹萍,曾贵刚,金凤,李虹,郭长青.基于文献计量学的针刀疗法现状分析[J].中华中医药学刊,2010,28(6):1189-1190. 被引量：15
10彭绍东.基于SCORM标准的“学习路径”设计[J].现代教育技术,2010,20(8):114-119. 被引量：23

引证文献11

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
3张德成,王杨,赵传信,甄磊,李昌.基于贝叶斯决策的极短文本分类模型[J].重庆科技学院学报（自然科学版）,2018,20(4):82-85. 被引量：2
4陆万万.一种基于大数据的案件信息智能分析系统[J].计算机应用与软件,2018,35(9):153-156. 被引量：2
5孔婵,高旭东,刘青青,陈俊春,黄娟.基于SATI软件的我国老年人睡眠质量相关研究文献计量学分析[J].中国医药导报,2018,15(29):161-164. 被引量：4
6李祯静,秦春秀,赵捧未,马晓悦.科技文献的资源语义空间:一种细粒度知识组织方法[J].情报杂志,2019,38(2):158-165. 被引量：13
7包志强,胡啸天,赵研,赵媛媛,黄琼丹.基于改进堆叠泛化算法的电信套餐预测[J].西安邮电大学学报,2019,24(2):98-104.
8刘福仁,丁磊.基于大数据的智能案事件系统建设与应用[J].警察技术,2019,0(5):35-37. 被引量：1
9戴玉,周利华,陈芹.近20年我国妇科肿瘤护理相关研究的计量学和可视化分析[J].中国医药导报,2020,17(5):160-163. 被引量：3
10孔维梁,韩淑云,张昭理.人工智能支持下自适应学习路径构建[J].现代远程教育研究,2020,32(3):94-103. 被引量：28

二级引证文献85

1王未.分析人工智能支持下自适应学习路径构建[J].汉字文化,2021(4):130-131. 被引量：6
2姜腾勇,胡旭东.一氧化氮和纯氧对重度肺动脉高压者肺阻力的影响[J].临床心血管病杂志,2000,16(5):212-213. 被引量：2
3牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：19
4曹玥,贾砚池,王峥.基于语义的科技文献检索技术研究[J].微型电脑应用,2019,35(12):16-18. 被引量：1
5戴玉,周利华,陈芹.近20年我国妇科肿瘤护理相关研究的计量学和可视化分析[J].中国医药导报,2020,17(5):160-163. 被引量：3
6唐晓波,谭明亮,胡潇然,石文萱,周巧.面向金融决策支持的知识获取研究综述[J].信息资源管理学报,2020,10(3):27-35. 被引量：3
7王鑫芸,王昊,邓三鸿,张宝隆.面向期刊选择的学术论文内容分类研究[J].数据分析与知识发现,2020,4(7):96-109. 被引量：10
8庄唯,胡雷地,李响,奚雪峰.大规模视频智能化应用体系建设的实践与思考[J].警察技术,2020(5):54-56.
9泮梦霞,聂蓉.我国分娩体验的文献计量学分析[J].医学信息,2020,33(21):16-19.
10谢泉峰,刘要悟.具身模拟:人工智能赋能的学习变革[J].课程．教材．教法,2020,40(12):116-122. 被引量：19

1夏禹圣.基于语料库的对外汉语教材词汇教学编排顺序研究——以“是”、“有”、“在”为例[J].文教资料,2017(18):34-36. 被引量：1
2张俊伟,杨柳,王硕宁,王忠建.基于文本挖掘的商品推荐[J].哈尔滨商业大学学报（自然科学版）,2017,33(4):463-468. 被引量：2
3陈燕.高中化学教师学情分析现状的调查研究[J].考试周刊,2017,0(13):116-116. 被引量：1
4韩有业,张卿侨,马弋飞.何以离去——基于43位媒体人离职告白的词频统计分析[J].三峡论坛,2017(5):60-67.
5陈家锐.2000年以来国内教育出版领域研究热点及趋势分析——基于CSSCI相关文献关键词词频统计[J].新闻传播,2017(8):60-61.
6王林峰,晏峻峰,刘欢庆.基于Web数据挖掘的失眠症人群特征分析[J].医学信息学杂志,2017,38(8):64-68. 被引量：1
7陈素云.影响电铲挖掘效率的因素分析[J].产业与科技论坛,2017,16(14):80-81. 被引量：5
8蒋光贵.习近平统一战线思想的几个特征[J].湖北省社会主义学院学报,2017(4):37-40. 被引量：4
9《光谱学与光谱分析》期刊社决定采用ScholarOne Manuscripts在线投稿审稿系统[J].光谱学与光谱分析,2017,37(9):2697-2697.
10蒋小峰.近十年来我国图书馆推荐书目服务研究综述[J].图书馆理论与实践,2017,0(9):6-11. 被引量：14

计算机科学

2017年第10期

浏览历史

内容加载中请稍等...

基于词频统计规律的文本数据预处理方法被引量：11

参考文献4

二级参考文献190

共引文献140

同被引文献109

引证文献11

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于词频统计规律的文本数据预处理方法 被引量：11

参考文献4

二级参考文献190

共引文献140

同被引文献109

引证文献11

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于词频统计规律的文本数据预处理方法被引量：11