微博主题语料库的设计与实现

Design and Implementation of Microblog Theme Corpus

下载PDF

导出

摘要 [目的/意义]研究微博语料库和数据处理相关技术,以实现对微博主题语料库的设计。[方法/过程]选取"大V"微博用户和草根微博用户各500个,采集每个用户发布的前300条信息作为研究对象,对微博数据进行预处理及信息过滤,构建由"大V"用户高频词、草根用户高频词、"大V"用户高频词排名、草根用户高频词排名4个部分组成的主题语料库。[结果/结论 ]该语料库具有查看、搜索、添加及高频词排名等功能,能够查询相应的"大V"用户和草根用户的微博主题高频词。 [ Purpose/significance ]The paper is to study relevant technologies of microblog corpus and data processing, so as to design a microblog theme corpus. [Method/process]The paper selects 500 ＂big V＂ users and 500 grassroots users, collects the top 300 pieces of information from each user as research object, preprocesses and filters the data, and constructs a theme corpus composed of high-frequency words of ＂big V＂ users, high-frequency words of grassroots users, high-frequency words ranking of ＂big V＂ users, and high-frequency words ranking of grassroots users.[ Result/conclusion ]The corpus provides functions of viewing, search, adds and high- frequency words ranking, and offers query service on microblog theme high-frequency words of corresponding ＂big V＂ user or grass-roots user.

作者张钰莎

机构地区广东外语外贸大学南国商学院

出处《情报探索》 2016年第10期65-67,共3页 Information Research

基金广东省哲学社会科学"十二五"规划项目"微博公共事件自动发现及演化模型研究"(项目编号:GD14YXW02) 国家自然科学基金项目"面向微博公共事件的反向社会情绪识别及演化分析研究"(项目编号:61572145)成果之一

关键词微博语料库高频词 microblog corpus high-frequency word

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1吴东东,黄卓龄.关于企业运营微博的几点思考[J].中小企业管理与科技,2013(21):29-30. 被引量：1
2徐志明,李栋,刘挺,李生,王刚,袁树仑.微博用户的相似性度量及其应用[J].计算机学报,2014,37(1):207-218. 被引量：79
3沈颖.基于微博语料库的网络新词语义变异现象研究[J].长春理工大学学报（社会科学版）,2012,25(4):75-77. 被引量：6
4骆铮.基于语料库的翻译教学研究[J].河南工业大学学报（社会科学版）,2011,7(1):111-113. 被引量：1
5赵莹,马雪.微博时代:大V的舆论影响[J].记者摇篮,2014(3):58-59. 被引量：4
6唐晓波,向坤.基于LDA模型和微博热度的热点挖掘[J].图书情报工作,2014,58(5):58-63. 被引量：65

二级参考文献59

1王克非,秦洪武,王海霞.双语对应语料库翻译教学平台的应用初探[J].外语电化教学,2007(6):3-8. 被引量：77
2丁树德.浅谈西方翻译语料库研究[J].外国语,2001,24(5):61-66. 被引量：49
3辛斌.批评性语篇分析方法论[J].外国语,2002,25(6):34-41. 被引量：226
4郭岩,白硕,杨志峰,张凯.网络日志规模分析和用户兴趣挖掘[J].计算机学报,2005,28(9):1483-1496. 被引量：62
5Bowker L, Corpus-Based Applications for Translator Training :Exploring the Possibilities [ A ]. In Sylviane Granger ( eds ) Corpus-based Approaches to Contrastive Linguistics and Translation Studies [ C ]. Amsterdan-New York Editions Rodopi RV ,2003.
6http://baike.baidu.com/view/1567099.htm.
7http://baike.baidu.com/view/4611266.htm.
8AnnHandleyCC.Chapman著.王正林等译.内容营销--网络营销的杀手级武器.电子工业出版社,2011.10.
9http://www.adma ngochina .com/2010/02/1 O0220mini/.
10http://www.chinaz.com/news/2012/0906/273129_2,shtm.

共引文献148

1李沿江,赵红霞,苏玲霞.新冠肺炎疫情期间微博话题“中医新冠肺炎”的关注热点分析——基于LDA模型的微博主题挖掘[J].亚太传统医药,2020,16(11):15-17. 被引量：3
2许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
3赵越,刘子平,朱琳.社交媒体中的西安城市形象——基于跨平台数据的研究[J].新闻知识,2023(1):30-42.
4张杰鑫,庞建民,张铮.拟态构造的Web服务器异构性量化方法[J].软件学报,2020,31(2):564-577. 被引量：10
5黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
6李有增,周全,蒋鸿玲.基于时空关联的高校社会网络关系挖掘方法研究[J].微电子学与计算机,2018,35(12):137-140. 被引量：3
7张海涛,唐诗曼,魏明珠,李泽中.多维度属性加权分析的微博用户聚类研究[J].图书情报工作,2018,62(24):124-133. 被引量：12
8杨娟,徐慧芳,邢辉,俞秋嫣,孔浩南,吕繁.男男性行为人群个体中心社会网络特征与HIV流行的关联[J].中华预防医学杂志,2018,52(12):1215-1219. 被引量：8
9李贺,祝琳琳,闫敏,刘金承,洪闯.开放式创新社区用户信息有用性识别研究[J].数据分析与知识发现,2018,2(12):12-22. 被引量：8
10柴丹炜,邵思思,张若昕,乐光学,刘建生.网络舆论话题分类算法研究与实证分析[J].嘉兴学院学报,2014,26(6):116-123. 被引量：2

1一个草根微博控的微体验——读《随时随地秀微博》[J].软件和信息服务,2012(5):78-78.
2信海光.中国微博的另类商业价值[J].视听界,2011(3):10-11.
3开放平台第二季，你准备好了吗？[J].程序员,2011(8):17-18.
4微博加V那些猫腻[J].计算机应用文摘,2012(11):83-84.
5李勇.暑假到,短视频这样玩才够high[J].电脑知识与技术（经验技巧）,2015,0(7):5-16.
6毕兴.草根微博向传统纸媒发起挑战[J].信息系统工程,2011,24(4):42-43.
7sOFTFiRE.专题企划年终巨献!2010金牌软件大盘点--2010年软件纷争录[J].计算机应用文摘,2010(36):10-13.
8李峥嵘.微博发展趋势下的观察与思考[J].中国信息安全,2014(7):79-80.
9冰河.2010年度IT行业大事回顾[J].大众软件,2011(1):12-19.
10冯海超.斯凯网络草根的逆袭[J].英才,2013(12):58-59.

情报探索

2016年第10期

浏览历史

内容加载中请稍等...

微博主题语料库的设计与实现

参考文献6

二级参考文献59

共引文献148

相关作者

相关机构

相关主题

浏览历史