基于个人微博特征的事件提取研究被引量：3

ON EVENTS EXTRACTION BASED ON MICROBLOGGING CHARACTERISTICS

下载PDF

导出

摘要个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。 Individual microblogs,in regard to events extraction,mostly use their texts to calculate the similarity to finally achieve the clustering results,but the microblogging features are not fully taken into consideration. Aiming at the characteristics of microblogging hashtag,URL and time,this paper puts forward a microblogging characteristic-based events extraction algorithm. The algorithm makes the TF-IDF improvement against microblogging characteristics,and adds hashtag similarity and URL similarity to carry out the comprehensive similarity calculation. Finally,it uses the improved K-means clustering method,that segments first and merges afterwards according to the time,to get the events extraction results. Experimental results show that the microblogging characteristics-based events extraction algorithm achieves obvious improvement in accuracy of microblogging keywords extraction and events extraction.

作者高永兵陈超熊振华王宇马占飞

机构地区内蒙古科技大学信息工程学院

出处《计算机应用与软件》 CSCD 2016年第7期47-51,共5页 Computer Applications and Software

基金国家自然科学基金项目(61163025)

关键词微博特点事件提取综合相似度 Microblogging characteristic Events extraction Comprehensive similarity

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1童薇,陈威,孟小峰.EDM:高效的微博事件检测算法[J].计算机科学与探索,2012,6(12):1076-1086. 被引量：19
2王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
3周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
4张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37

二级参考文献45

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C]//European Conferrence on Machine Learning (ECML).Berlin:Springer,1998:137-142.
8Yang Y,Liu X.A re-examination of text categorization methods[C]//The 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,1999:42-49.
9Yang Yi-ming,Pederson Jan O.A comparative study on feature se-lection in text categorization[C]//Proceedings of the 14th International Conference on Machine learning,Bled:Morgan Kaufmann,1997:258-267.
10Zhou Yanan,Tang Jianbo,Wang Jiaqin.An improved TFIDF feature selection algorithm based on information entropy[C]//Proceedings of the 26th Chinese Control Conference,CCC 2007:312-315.

共引文献99

1施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
2司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1
3常凯.基于TF＊IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010,6(9):6928-6930. 被引量：2
4贾晓倩,刘方爱.基于最近邻搜索算法分组式P2P网络拓扑模型[J].计算机技术与发展,2010,20(11):100-104. 被引量：3
5范会联,仲元昌,胡江坤,贾年龙.带信息熵反馈机制的免疫克隆文本聚类算法[J].郑州大学学报（理学版）,2011,43(1):46-49. 被引量：1
6席程成,李文化.基于精准农户信息的农业文本数据自动挖掘模型[J].热带农业科学,2011,31(9):87-89.
7许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
8马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
9雷军程,黄同成,柳小文.一种基于权重的文本特征选择方法[J].计算机科学,2012,39(7):250-252. 被引量：8
10王行恒,曹军,邓学,刘垚,高适.基于循环迭代算法改进的TFIDF方法及应用[J].计算机应用与软件,2012,29(11):305-308. 被引量：2

同被引文献28

1姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
2徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：384
3张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
4廉捷,周欣,曹伟,刘云.新浪微博数据挖掘方案[J].清华大学学报（自然科学版）,2011,51(10):1300-1305. 被引量：120
5王昊,杨亮,林鸿飞.日本地震的微博热点事件分析[J].中文信息学报,2012,26(5):7-13. 被引量：9
6汪祥,贾焰,周斌,陈儒华,韩毅.基于交互关系的微博用户标签预测[J].计算机工程与科学,2013,35(10):44-50. 被引量：12
7刘全超,黄河燕,冯冲.基于多特征微博话题情感倾向性判定算法研究[J].中文信息学报,2014,28(4):123-131. 被引量：17
8孙晓,叶嘉麒,唐陈意,任福继.基于多策略的新浪微博大数据抓取及应用[J].合肥工业大学学报（自然科学版）,2014,37(10):1210-1215. 被引量：16
9王文帅,杜然,程耀东,陈刚.一种面向大规模微博数据的话题挖掘方法[J].计算机工程与应用,2014,50(22):32-37. 被引量：4
10周小平,梁循,张海燕.基于R-C模型的微博用户社区发现[J].软件学报,2014,25(12):2808-2823. 被引量：25

引证文献3

1欧阳龙,卢琪,彭艳兵.基于内容和背景的微博问答问题推荐[J].电子设计工程,2018,26(11):183-188. 被引量：1
2曹彦波.基于新浪微博的2018年云南通海5.0级地震舆情时空特征分析[J].地震研究,2018,41(4):525-533. 被引量：16
3王吉地,郭军军,黄于欣,高盛祥,余正涛,张亚飞.融合依存信息和卷积神经网络的越南语新闻事件检测[J].南京大学学报（自然科学版）,2020,56(1):125-131. 被引量：1

二级引证文献18

1童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
2曹彦波.基于社交媒体的地震灾区民众情绪反应分析[J].地震研究,2019,42(2):245-256. 被引量：13
3张莹,郭红梅,尹文刚,赵真,冉青.基于SIFT特征与SVM分类的地震灾情图像信息异常检测方法[J].地震研究,2019,42(2):265-272. 被引量：4
4陈兴蜀,常天祐,王海舟,赵志龙,张杰.基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J].四川大学学报（自然科学版）,2020,57(2):409-416. 被引量：87
5齐珉,齐文华,苏桂武.基于新浪微博的2017年四川九寨沟7.0级地震舆情情感分析[J].华北地震科学,2020,38(1):57-63. 被引量：11
6李亚芳,王新刚,梁庆云.基于新浪微博大数据的新疆伽师6.4级地震舆情分析及可视化研究[J].内陆地震,2020,34(1):103-110. 被引量：11
7邓月飞,孔德育.云南通海、巧家MS5.0地震在网络舆情引导中的思考与建议[J].地震地磁观测与研究,2020,41(3):216-221. 被引量：2
8傅魁,梁少晴,李冰.基于改进的深度Q网络结构的商品推荐模型[J].计算机应用,2020,40(9):2613-2621. 被引量：3
9张琛,马祥元,周扬,郭仁忠.基于用户情感变化的新冠疫情舆情演变分析[J].地球信息科学学报,2021,23(2):341-350. 被引量：38
10杨辰,潘顺,严岩.基于自然语言识别的上海市报警灾情数据识别及其气象灾害特征分析研究[J].自然灾害学报,2021,30(3):142-150. 被引量：9

1高永兵,熊振华.基于LDA的专业个人微博事件提取[J].内蒙古科技大学学报,2015,34(3):257-261.
2程高伟,丁亦喆,吴振强.结合用户评分和项目标签的协同过滤算法[J].计算机技术与发展,2015,25(3):71-75. 被引量：2
3郑晓刚,韩立新,白书奎,曾晓勤.一种基于信息增益和改进的PageRank的关键字提取方法[J].计算机应用与软件,2012,29(9):75-76.
4莫以为,萧德云.离散测量事件在混合系统状态估计中的应用[J].应用科学学报,2005,23(2):111-116.
5孙秀娟.加权平均值的改进k-means算法[J].电子技术与软件工程,2014(4):198-198. 被引量：1
6马云,王宝树,李伟生.数据融合中的态势觉察技术[J].计算机工程,2004,30(1):85-87. 被引量：11
7高俊波,栾翠菊,王晓峰.新的关键字提取算法研究[J].计算机工程与设计,2008,29(3):765-767. 被引量：6
8宋仁亮,戴兆乐.战场关键事件提取与告警方法[J].软件工程,2016,19(10):1-3. 被引量：3
9卜旭松,刘立波,石磊.基于PAM和簇阈值的改进K-Means聚类算法[J].湖北工程学院学报,2015,35(3):36-39. 被引量：2
10刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3

计算机应用与软件

2016年第7期

浏览历史

内容加载中请稍等...

基于个人微博特征的事件提取研究被引量：3

参考文献4

二级参考文献45

共引文献99

同被引文献28

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于个人微博特征的事件提取研究 被引量：3

参考文献4

二级参考文献45

共引文献99

同被引文献28

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于个人微博特征的事件提取研究被引量：3