大数据环境下的文本信息挖掘方法被引量：1

Text information mining method in large data environment

下载PDF

导出

摘要文本信息挖掘有利于提高文本信息的查找和利用效率,针对传统方法存在的问题,提出文本信息挖掘方法。首先提取文本信息术语,估计信息内容与文本类别间的余弦距离,结合模糊规则推理和余弦距离得到隶属度,然后根据均值密度的中心估计方法得到文本数据集合的平均密度,确定文本信息聚类中心,删除远离文本信息聚类中心的奇异数据点,实现大数据环境下文本信息挖掘。实验结果表明,该方法能够有效提高文本信息挖掘的查准率,而且具有较强的可扩展性。 The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods,a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset,determine the clustering center of text information,delete the singularity data point far away from the clustering center of text information,and realize the text information mining in big data environment.The experimental results show this method can improve the precision ratio of text information mining effectively,and has strong scalability.

作者彭梅

机构地区广州工商学院

出处《现代电子技术》北大核心 2017年第23期123-126,共4页 Modern Electronics Technique

关键词大数据文本信息信息挖掘查准率 big data text information information mining precision ratio

分类号 TN911.134 [电子电信—通信与信息系统] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1潘大胜,陈志福,覃焕昌.基于模糊关联迭代分区的挖掘优化方法研究[J].科学技术与工程,2016,16(24):235-238. 被引量：8
2陈晖.旋转机械振动故障相似性系数的优化挖掘方法[J].科技通报,2016,32(4):126-129. 被引量：2
3李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016,34(8):153-159. 被引量：44
4胡海斌.引入特征倾向性的高效网络文本数据挖掘[J].计算机仿真,2015,32(5):436-440. 被引量：6
5朱贺军,马丁.海量短文本实时挖掘方法的研究与仿真[J].计算机仿真,2015,32(12):442-446. 被引量：4
6张世玉,王伟,于跃,付晓燕,谭婉君,陶成琳.基于文本挖掘技术的技术层面专利组合分析方法优化[J].情报理论与实践,2015,38(10):127-129. 被引量：8
7任高举,白亚男.多媒体智能教学系统中特定数据挖掘方法研究[J].电子设计工程,2016,24(11):4-7. 被引量：8
8邱剑,王慧芳,应高亮,张波,邹国平,何奔腾.文本信息挖掘技术及其在断路器全寿命状态评价中的应用[J].电力系统自动化,2016,40(6):107-112. 被引量：61
9韩文智.计算机文本信息挖掘技术在网络安全中的应用[J].华侨大学学报（自然科学版）,2016,37(1):67-70. 被引量：6
10史玉珍,单冬红.基于子主题选择与三级分层结构的Web文本挖掘方法[J].电信科学,2016,32(5):96-104. 被引量：1

二级参考文献124

1殷蜀梅.基于Web2.0和文本挖掘技术构建医学信息门户网站研究——以口腔医学信息门户网站为例[J].图书情报工作,2011,55(S1):205-207. 被引量：1
2李颖,阎保平.Web文本挖掘在互联网信息统计中的研究与设计[J].微电子学与计算机,2005,22(1):62-65. 被引量：5
3郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报（人文社会科学版）,2005,25(4):127-130. 被引量：24
4张群.文本挖掘技术及其在专利信息分析中的应用[J].现代情报,2006,26(3):209-210. 被引量：9
5孙来军,胡晓光,纪延超,吕超.小波包-特征熵在高压断路器故障诊断中的应用[J].电力系统自动化,2006,30(14):62-65. 被引量：18
6化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
7许高建,胡学钢,王庆人.文本挖掘中的中文分词算法研究及实现[J].计算机技术与发展,2007,17(12):122-124. 被引量：14
8ERNST H. Patent portfolios for strategic R&D planning [ J ] Journal of Engineer Technology Manage, 1998, 15 (4) 279-308.
9ERNST H. Patent information for strategic technology management [J]. World Patent Information, 2003, 25 (3) : 233-242.
10BROCKHOFF K K. Indicators of firm patent activities [ C ]. Technology management: the new international language. IEEE, 1991 : 476-481.

共引文献144

1冯斌,张又文,唐昕,郭创新,王坚俊,杨强,王慧芳.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘[J].中国电机工程学报,2020,40(S01):1-10. 被引量：53
2杨金庆,吴乐艳,魏雨晗,陆伟,罗威.科技文献新兴话题识别研究进展[J].情报学进展,2020(1):202-234. 被引量：3
3龚其国,杨丽萍.“中国制造2025”背景下制造业的发展策略研究——基于社会网络分析和文本挖掘[J].科技促进发展,2020,16(8):917-923. 被引量：12
4陶洪铸,翟明玉,许洪强,季学纯,刘金波,徐丽燕.适应调控领域应用场景的人工智能平台体系架构及关键技术[J].电网技术,2020,44(2):412-419. 被引量：36
5范士雄,李立新,王松岩,刘幸蔚,於益军,郝博文.人工智能技术在电网调控中的应用研究[J].电网技术,2020,44(2):401-411. 被引量：108
6蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：213
7林杰克.计算机网络信息安全与防护综述[J].新一代信息技术,2022,5(6):115-116.
8冉现娟.影响计算机网络信息安全的主要因素与防治[J].新一代信息技术,2022,5(5):158-160.
9杨鸿飞,姜宇宙.中药失活剂治疗口腔科疾病的临床研究[J].中医药信息,2000,17(2):54-54. 被引量：2
10闪鑫,陆晓,翟明玉,高宗和,徐春雷,滕贤亮,王波.人工智能应用于电网调控的关键技术分析[J].电力系统自动化,2019,43(1):49-57. 被引量：123

同被引文献9

1钟翔,高勇,邬伦.基于链接分析的网页文本核心地名提取方法[J].地球信息科学学报,2016,18(4):435-442. 被引量：3
2刘炜,刘菲京,王东,刘宗田.一种基于事件本体的文本事件要素提取方法[J].中文信息学报,2016,30(4):167-175. 被引量：13
3张敏,刘建华,谢靖.网络科技信息监测中富文档识别与信息提取技术研究[J].情报科学,2017,35(1):128-132. 被引量：8
4张国和,黄凯,张斌,符欢欢,赵季中.最大稳定极值区域与笔画宽度变换的自然场景文本提取方法[J].西安交通大学学报,2017,51(1):135-140. 被引量：18
5王万良,潘蒙.基于多特征的视频关联文本关键词提取方法[J].浙江工业大学学报,2017,45(1):14-18. 被引量：5
6谢秀芳,张晓林.针对科技路线图的文本挖掘研究：信息抽取方法[J].情报理论与实践,2017,40(5):106-111. 被引量：6
7王晓立.计算机上对网络浏览证据准确提取仿真研究[J].计算机仿真,2017,34(7):240-243. 被引量：4
8唐凡,伍星.否定信息识别研究综述[J].计算机工程与应用,2017,53(12):1-8. 被引量：2
9谢方立,周国民,王健.基于节点类型标注的网页主题信息抽取方法[J].计算机科学,2016,43(S2):31-34. 被引量：4

引证文献1

1孙娜.自然语言文本中否定性信息智能抽取仿真[J].计算机仿真,2018,35(12):276-279. 被引量：2

二级引证文献2

1张磊.人工智能背景下计算机自然语言的处理[J].新一代信息技术,2020,3(17):44-47. 被引量：1
2李健,马延周,胡瑞娟.基于深度学习的轻量级自然语言描述生成算法[J].计算机仿真,2022,39(10):369-372. 被引量：1

1袁伟,石蕾.大数据背景下科技资源信息挖掘与利用的思考[J].中国科技资源导刊,2017,49(6):1-5. 被引量：5
2刘丙胜.遵循逻辑,提高信息挖掘的有效性——以2017年高考文综全国Ⅰ卷主观题为例[J].教学月刊（中学版）（政治教学）,2017(11):48-50.
3倪中新.网络环境下小学科学的教学模式探讨[J].小学科学,2016(9):44-44. 被引量：2
4国家大数据战略[J].China Today,2017,66(8):37-37.
5邬贺铨.大数据时代的机遇与挑战[J].唯实（现代管理）,2013(5):33-34. 被引量：3
6唐超.余永强:医院大数据系统应用前瞻[J].中国医院院长,2014,0(23):77-77.
7仲生玉.记者在新闻采访中的采访策略探究[J].西部广播电视,2017,38(21):188-189.
8宫美娜.现阶段企业财务报告存在的问题及完善措施[J].行政事业资产与财务,2017,0(27):56-57. 被引量：4
9徐昊楠.智能电网大数据处理技术研究[J].科技与创新,2017(24):64-65. 被引量：4
10杜红梅.新世纪少数民族文学研究的知识图谱——基于CiteSpaceⅢ以CSSCI数据库为中心的可视化分析[J].中央民族大学学报（哲学社会科学版）,2017,44(5):143-150. 被引量：4

现代电子技术

2017年第23期

浏览历史

内容加载中请稍等...

大数据环境下的文本信息挖掘方法被引量：1

参考文献11

二级参考文献124

共引文献144

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

大数据环境下的文本信息挖掘方法 被引量：1

参考文献11

二级参考文献124

共引文献144

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

大数据环境下的文本信息挖掘方法被引量：1