Twitter中近似重复消息的判定方法研究被引量：16

Detecting Near Duplicate Messages in Twitter

下载PDF

导出

摘要微博客是Web2.0出现以来的一个新生概念。著名的Twitter系统是微博客中具有代表性的一个,其全球用户已经超过1.6亿,在世界范围内具有重要影响力:目前知名政治家、社会名流和大企业几乎都是Twitter的用户。Twitter系统中的消息小于140个字符,而且语法不规范。同时,由于Twitter允许用户以多种格式自由转发消息,系统中存在大量内容重复或近似重复的消息。重复消息的存在加重了系统存储的负担,对用户阅读、理解以及分析消息的内容也造成了不利影响。该文分析了Twitter系统中转发消息的语法特点,并利用这些语法特点提取规则,把转发的消息变成普通消息。该文还提出统计字符种类和最短编辑距离两种字符串距离计算的方法以判定Twitter中近似重复的消息。该文还分析了Twitter消息发送的方式以及不同登录方式的消息特征。实验结果表明,两种方法具有扩展性强、实现简单、效率高等优点,能够有效地检测Twitter上的信息重复现象。 Microblog is a very new concept of web 2.0.The most important microblog system in use is Twitter,with more than 160 million users all over the world.For now,Twitter is one of the most influential voices of the globe,its users including celebrities,well-known politicians and first-order companies.The length of the messages in Twitter is short,and the contents of the messages are very likely to be informal in syntax or grammar.Moreover,Twitter does not strictly define the syntax of retweet,which causes the existence of a great number of near duplicate messages.These near duplicate messages can be a waste of storage resources,and can greatly reduce the user experience of Twitter.In this paper,the syntax of retweet messages is analyzed,and a method is presented to remove the retweet symbols of messages using the analyzed results.In addition,two text distance calculating methods character statistics and shortest editing distance are proposed to cluster the Twitter messages into groups of near duplicate messages.We also analyze the log-in method and characteristics of twitter＇s messages.Through a series of experiments,we prove that our methods are efficient,extensible and easy to implement,and can be used to discover and filter the near duplicate messages in microblogs.

作者曹鹏李静远满彤刘悦程学旗

机构地区中国科学院计算技术研究所网络重点实验室中国科学院研究生院

出处《中文信息学报》 CSCD 北大核心 2011年第1期20-27,共8页 Journal of Chinese Information Processing

基金国家242专项资助项目(2009F108 2009A91 2009A19) 国家自然科学基金资助项目(60903139)

关键词微博客 TWITTER 重复消息 microblog Twitter near duplicate message

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Twitter official website [EB/OL]. 2010. URL: http://www. twitter. com/.
2B. Stone, E. Williams. Chirp: Twitter's developer conference [EB/OL]. April 14-15, 2010. URL: http ://chirp. twitter. com/.
3C. I.yon, R. Barrett, J. Malcolm. A theoretical basis to the automated detection of copying between texts, and its practical implementation in the Ferret plagiarism and collusion detector [C]//Plagiarism, Prevention, Practice and Policies Conference. June, 2004.
4B. H. Bloom. Space/time trade-offs in hash coding with allowable errors [J]. Communications of the ACM, 1970, 13(7): 422-426.
5M. Charikar. Similarity estimation techniques from rounding algorithms [C]//Proceedings of the 34th Annual Symposium on Theory of Computing, Montr al, Qu b, Canada. May, 2002.
6G. S. Manku, A. Jain, A. D. Sarma. Detecting nearduplicates for web crawling [C]//Proceedings of the 16th International World Wide Web Conference. Banff, Alberta, Canada. May, 2007.
7D. Boyd, S. Golder, G. Lotan. Tweet, tweet, retweet: conversational aspects of retweeting on Twitter [C]// Proceedings of the 43rd Hawaii International Conference on System Sciences. 2010: 1-10.

同被引文献219

1徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
2李锋,周凯波,冯珊.基于统计特征的属性相似度计算模型[J].华中科技大学学报（自然科学版）,2005,33(6):80-82. 被引量：8
3徐晶,许炜.消息中间件综述[J].计算机工程,2005,31(16):73-76. 被引量：81
4张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163. 被引量：51
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
6冯冲,黄河燕,陈肇雄,张亮.基于字符层马尔科夫模型的多语种识别[J].计算机科学,2006,33(1):226-228. 被引量：5
7白君贵,赵树宽.浅析信息技术负效应[J].情报科学,2006,24(12):1786-1789. 被引量：3
8滕云,杨琴.网络弱关系与个人社会资本获取[J].重庆社会科学,2007(2):122-124. 被引量：13
9王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
10李锋,魏莹.分布式环境下基于语义相似的案例检索[J].计算机工程,2007,33(9):28-30. 被引量：8

引证文献16

1郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
2孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：11
3王琳,冯时,徐伟丽,杨卓,王大玲,张一飞.一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J].计算机应用与软件,2012,29(8):25-29. 被引量：15
4蒋盛益,麦智凯,庞观松,吴美玲,王连喜.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142. 被引量：28
5汪洋,帅建梅,陈志刚.基于海量信息过滤的微博热词抽取方法[J].计算机系统应用,2012,21(11):131-136. 被引量：4
6文坤梅,徐帅,李瑞轩,辜希武,李玉华.微博及中文微博信息处理研究综述[J].中文信息学报,2012,26(6):27-37. 被引量：37
7倪耀群,曹鹏,许洪波,唐慧丰,程学旗.网络维吾尔文判别及其文本长度下界的探讨[J].中文信息学报,2012,26(6):109-115. 被引量：2
8潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
9林祥辉,张瑾,黄康平,许磊,许洪波,程学旗,程工.一种基于内存的高效在线数据处理服务框架[J].中文信息学报,2014,28(1):80-86. 被引量：2
10郑飞,张蕾.基于分类的中文微博热点话题发现方法研究[J].信息网络安全,2014(9):127-131. 被引量：3

二级引证文献202

1张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
2赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：30
3唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119. 被引量：31
4肖文峰.基于微博的企业客户互动系统的设计[J].中国管理信息化,2012,15(24):44-46.
5潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
6程亮,邱云飞,孙鲁.微博谣言检测方法研究[J].计算机应用与软件,2013,30(2):226-228. 被引量：23
7许筠芸,陆贤彬.移动社会化媒体技术接受与匹配影响因素研究——以移动微博客户端发布行为为例[J].经济与管理,2013,27(2):84-88. 被引量：3
8张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：76
9朱玉强.图书馆微博辅助管理程序设计[J].现代图书情报技术,2013(5):92-95. 被引量：2
10邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198. 被引量：33

1辛义定,丁君辉,徐远兵.面向ESB的重复消息检测方法研究[J].计算机应用与软件,2013,30(1):126-128.
2夏盛明,尹宝林.一种可靠的消息传输机制[J].计算机技术与发展,2009,19(10):30-32. 被引量：7
3林丽华.将Gmail的重复联系人合并起来[J].电脑迷,2010(2):66-66.
4我就是天使.桌面图标重复现象小结[J].网络与信息,2008(6):48-48.
5辛义定,丁君辉,徐远兵.基于企业服务总线的系统集成架构[J].计算机工程,2011,37(S1):67-69.
6刘卓.相同内容重复巧输入[J].电脑爱好者,2012(9):51-51. 被引量：1
7徐凯,沙瀛,李阳,单既喜,王晓岩.Twitter中重复消息的分析和处理[J].计算机工程与应用,2014,50(21):111-115.
8江中帆.网上恶搞,与谁理论?[J].检察风云,2009(23):46-47.
9引火虫.腾讯微博网页端直接完成截屏[J].网友世界,2011(3):58-58.
10王威.微博将成基本沟通方式[J].互联网天地,2010(2):56-57. 被引量：1

中文信息学报

2011年第1期

浏览历史

内容加载中请稍等...

Twitter中近似重复消息的判定方法研究被引量：16

参考文献7

同被引文献219

引证文献16

二级引证文献202

相关作者

相关机构

相关主题

浏览历史

Twitter中近似重复消息的判定方法研究 被引量：16

参考文献7

同被引文献219

引证文献16

二级引证文献202

相关作者

相关机构

相关主题

浏览历史

Twitter中近似重复消息的判定方法研究被引量：16