微博热词抽取及话题发现研究被引量：10

Micro-blogging Hot Words Extraction and Topic Detection

下载PDF

导出

摘要旨在实践一种方法,能从大量散乱的微博语料中快速抽取热点词语并从中形成话题。首先参考文本串的词频、内部聚合度、粘联度这三个统计特征判断文本串是否成词,直接从样本语料中抽取出高频词。然后根据这些高频词在不同时间窗口的出现频率筛选出实时热词,最后利用词共现确定热词间的关联度,将热词聚类形成热点话题。实验证明,该算法简单易行,在话题发现中取得了良好的效果。 This paper aims to extract valuable information from massive fragmented content and feed back to the user in a concise form. Firstly, considering three statistical characteristics： word frequency of text string, internal degree of coupling, the external degree of flexi- bility, we extract high-frequency words from micro-blog corpus, then filter outreal-time hot words according to the frequency of occur- rence of these high-frequency words in different time windows, and finally use the word co-occurrence to determine the hot words correla- tion to get a hot topic. Experimental results show that the algorithm is simple and available, and achieved good results on the topic detec- tion.

作者郝晓玲茅嘉惠于秀艳

机构地区上海财经大学信息管理与工程学院山东理工大学商学院

出处《情报杂志》 CSSCI 北大核心 2015年第6期109-113,157,共6页 Journal of Intelligence

基金国家自然科学基金项目"面向海量数据语义标注众包的任务管理方法研究"(编号:71401096) 教育部人文社会科学基金资助项目"面向用户兴趣基于本体的网络舆情研判体系研究-以论坛为例"(编号:10YJC860010) 山东省高校人文社会科学研究计划项目"云计算可持续发展的关键影响因素及对策研究"(编号:J13WG16)

关键词微博微博热词话题发现词共现 micro-blogging micro-blogging hot word topic detection word co-occurrence

分类号 G206 [文化科学—传播学]

引文网络
相关文献

参考文献14

1丁晟春,孟美任,李霄.面向中文微博的观点句识别研究[J].情报学报,2014,33(2):175-182. 被引量：11
2蒋盛益,麦智凯,庞观松,吴美玲,王连喜.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142. 被引量：28
3黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17
4徐远方,李成城.基于支持向量机和约束条件的新词识别研究[J].计算机技术与发展,2014,24(1):98-101. 被引量：2
5任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
6罗盛芬,孙茂松.基于字串内部结合紧密度的汉语自动抽词实验研究[J].中文信息学报,2003,17(3):9-14. 被引量：32
7赵洁,温润.基于新词扩充和特征选择的微博观点句识别方法[J].情报学报,2013,32(9):945-951. 被引量：8
8顾森.基于大规模语料的新词发现算法[J].程序员,2012(7):54-57. 被引量：7
9贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
10钟将,耿升华,董高峰.一种新词检测方法研究[J].数字通信,2013,40(2):1-5. 被引量：6

二级参考文献128

1闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
4秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
7施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
8滕云,杨琴.网络弱关系与个人社会资本获取[J].重庆社会科学,2007(2):122-124. 被引量：13
9王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
10贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24

共引文献712

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2聂卉,何欢.引入词向量的隐性特征识别研究[J].数据分析与知识发现,2020,4(1):99-110. 被引量：2
3杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
4王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
5阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
6董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
7杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
8张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
9万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
10许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1

同被引文献151

1喻国明.基于语料库方法的舆论热词数据库的构建——以2011—2013年全国两会舆情中心词和关联词的发现与分析为例[J].新闻与写作,2014(1):54-60. 被引量：11
2徐雅斌,李艳平,郑芬.基于MapReduce架构的网络热点话题发现[J].华中科技大学学报（自然科学版）,2012,40(S1):236-239. 被引量：3
3贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
4王超,佘廉.社会重大突发事件的预警管理模式研究[J].武汉理工大学学报（社会科学版）,2005,18(1):26-29. 被引量：38
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6谢立中.实证、诠释与话语:社会分析模式比较——以自杀现象为例(上)[J].江苏行政学院学报,2007(3):65-73. 被引量：9
7熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
8中国互联网络信息中心(CNNIC).第36次中国互联网络发展状况统计报告[EB/OL]. http: //www. cnnic. net. cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf’ 2015-7-22.
9Kazi F, Joshi S, Machchhar S, et al. Novel approach for online forum hotspot detection [ J ]. Data Mining and Knowledge Engineering, 2015,7 ( 6 ) : 203-208.
10Devi K N, Bhaskaran V M. Rough set and entropy based feature selection for online forums hotspot detection [ J ]. International Journal of Computer Applications, 2015,117 (10) :37-41.

引证文献10

1万红新,彭云,郑睿颖.时序化LDA的舆情文本动态主题提取[J].计算机与现代化,2016(7):91-94. 被引量：3
2伏琰.高校图书馆微博热点话题与传播分析[J].河南图书馆学刊,2016,36(12):51-53. 被引量：1
3孙明溪,刘春琦.基于DBSCAN算法与句间关系的热点话题发现研究[J].图书情报工作,2017,61(12):113-121. 被引量：7
4孙文峥.基于“用户—媒体—学术”视角的网络热词传播特征分析[J].出版科学,2017,25(5):99-104. 被引量：1
5段青玲,张璐,刘怡然,王沙沙.基于农业网络信息分类的热词自动提取方法[J].农业机械学报,2018,49(7):160-167. 被引量：8
6王国华,汪恒,李慧芳,王戈.重大社会热点事件在青年学生群体中的多元话语建构研究——以高校研究生自杀为例[J].情报杂志,2018,37(9):100-105. 被引量：4
7彭云,万红新.融合语义关联和文本降维的社交媒体主题提取[J].信息与电脑,2021,33(11):183-185.
8周健,张杰,屈冉,闫石.基于LDA的国内外区块链主题挖掘与演化分析[J].情报杂志,2021,40(9):161-169. 被引量：35
9张柳,王慧,相甍甍.基于LDA的突发事件应急管理主题热度与演化分析[J].情报科学,2023,41(6):182-191. 被引量：11
10王大睿,张超群,郝小芳,完颜兵,李晓翔.一种基于景区评论的静态热词提取模型[J].信息技术,2024,48(6):15-21.

二级引证文献69

1荆树伟,石丽英,刘金涛.自然灾害应急管理主题热度与演化规律——基于人工智能语言模型的分析[J].中国应急管理科学,2024(6):34-51.
2张弦,杨建林.基于LDA-Gibbs模型的中美网络信息安全立法比较分析[J].大学图书情报学刊,2018,36(2):110-117.
3张即帅.基于爬虫技术的校园网络热点话题提取分类研究[J].自动化与仪器仪表,2018,0(3):90-92. 被引量：2
4李汉才,徐建民,吴树芳.融合时序性和波动性的热点话题发现研究[J].河北大学学报（自然科学版）,2018,38(4):416-422. 被引量：1
5郭志杰,周世平,顾惊璞,曹学建.基于主题爬虫技术的三农舆情监测管理平台开发与应用[J].农业工程技术,2018,38(15):29-34. 被引量：3
6孙铭徽.“蓝鲸”自杀游戏任务的语言特征及其诱导的渐进性[J].外国语言文学,2019,36(1):73-89. 被引量：1
7江俊,黄骅,任条娟,张登辉.基于峰值密度聚类的电信业投诉热点话题检测方法[J].电信科学,2019,35(5):97-103. 被引量：1
8温廷新,李洋子,孙静霜.基于多因素特征选择与AFOA/K-means的新闻热点发现方法[J].数据分析与知识发现,2019,3(4):97-106. 被引量：5
9杨立宝,余章馗,狄晓晓.基于TextRank和LDA的信息安全热点感知研究[J].网络空间安全,2019,10(5):40-45. 被引量：3
10张超超,卢新明.基于FastText的新闻文本多分类研究[J].软件导刊,2020,19(3):44-47. 被引量：5

1谷玉华,文娟.专利地图研究文献计量分析[J].现代情报,2012,32(9):102-106. 被引量：3
2罗凌芳.对峙与提升——网络舆情与主流舆论的博弈[J].南方电视学刊,2009(6):79-81.
3任红娟,张志强.基于文献计量的科学知识图谱发展研究[J].情报杂志,2009,28(12):86-90. 被引量：132
4浦墨,郑彦宁,赵筱媛,刘志辉.基于词共现关系强度和关键词词频的叙词选词方法探究[J].图书情报工作,2013,57(15):121-125. 被引量：15
5文娟,彭洁.国内信息自由研究现状分析[J].新世纪图书馆,2013(6):15-18. 被引量：2
6李维,杨思洛.近十年我国高校图书馆与公共图书馆研究主题比较分析[J].图书馆,2015(8):49-52. 被引量：7
7春城三月话创新[J].中国高校科技与产业化,2005(4):20-22.
8张振康,王娟,郑春厚.国内期刊引文量及引文聚散特征研究[J].情报杂志,2012,31(7):57-60. 被引量：6
9王兴旺,宓一鸣,尚建翠,李方.基于共词分析的我国图书馆馆藏评价研究热点分析[J].现代情报,2014,34(7):27-31. 被引量：8
10戴媛,程学旗.面向网络舆情分析的实用关键技术概述[J].信息网络安全,2008(6):62-65. 被引量：21

情报杂志

2015年第6期

浏览历史

内容加载中请稍等...

微博热词抽取及话题发现研究被引量：10

参考文献14

二级参考文献128

共引文献712

同被引文献151

引证文献10

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

微博热词抽取及话题发现研究 被引量：10

参考文献14

二级参考文献128

共引文献712

同被引文献151

引证文献10

二级引证文献69

相关作者

相关机构

相关主题

浏览历史

微博热词抽取及话题发现研究被引量：10