抑制背景噪声的LDA子话题挖掘算法被引量：1

LDA Subtopic Detection Algorithm with Background Noise Restraint

下载PDF

导出

摘要专题文章集合是一些拥有相似背景知识的文章集合.为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析(LDA)子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度.在微信公众账号文章上的系列实验证明,BLDA算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA算法,其中主题召回率提高了170%,Purity聚类指标提高了143%,NMI聚类指标提高了160%. Special article set is a collection of articles with common background knowledge. In order to more effec-tively detect the subtopics form special article set with complex information correlation, an LDA subtopic detection algorithm with background noise restraintnamed BLDA is proposed, which improves the precision of subtopic detec-tion from article set by firstly extracting the common background knowledge and then reproducing the keywords in each iteration step. By a series of experiments on a set of WeChat documents from public accounts, it is proved that the detection results obtained by BLDA are much better than those obtained by LDA, with a topic recall rate incre-ment of about 170% , a Purity index increment of 143% and a NMI index increment of 160%.

作者李静远丘志杰刘悦程学旗任彦 LI Jing-yuan QIU Zhi-jie LIU Yue CHENG Xue-qi REN Yan(Institute of Computing Technology//Key Laboratory of Network Data Science and Technology, Chinese Academy of Sciences, Beijing 100190, China National Computer Network Emergency Response Technical Team CoordinationCenter of China, Beijing 100029, China)

机构地区中国科学院计算技术研究所∥中国科学院网络数据科学与技术重点实验室国家计算机网络应急技术处理协调中心

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2017年第3期54-60,共7页 Journal of South China University of Technology(Natural Science Edition)

基金国家自然科学基金资助项目(61303244 61572473 61572469 61402442 61402022 61370132) 国家242信息安全计划项目(2015F114)~~

关键词子话题挖掘线性判别分析背景噪声抑制 subtopic mining linear discriminant analysis background noise restraint

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李劲,张华,吴浩雄,向军.基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J].计算机应用,2012,32(8):2346-2349. 被引量：26
2周学广,高飞,孙艳.基于依存连接权VSM的子话题检测与跟踪方法[J].通信学报,2013,34(8):1-9. 被引量：10

二级参考文献28

1ALLAN J, PAPKA R, LAVRENKO V. On-line new event detection and tracking[C] // SIGIR '98: Proceedings of the 21th ACM SIGIR International Conference on Research and Development in Information Retrieval. New York: ACM, 1998:37-45.
2路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类的微博客新闻话题发现研究[C] // 第六届全国信息检索学术会议论文集. 北京:中国中文信息学会,2010.
3RAMAGE D,DUMAIS S T,LIEBLING D J.Characterizing microblogs with topic models[C] // Proceedings of the Fourth International Conference on Weblogs and Social Media.Menlo Park: AAAI Press,2010:130-137.
4ASUNCION A, SMYTH P, WELLING M. Asynchronous distributed learning of topic models[C] // NIPS 2008: Proceedings of the 22th Annual Conference on Neural Information Processing Systems. Atlanta: Curran Associates Inc, 2008: 81-88.
5BLEI D M, LAFFERTY J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.
6SANKARANARAYANAN J, SAMET H, BENJAMIN E T, et al. TwitterStand: news in Tweets[C] // Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2009:42-51.
7SHARIFI B M, HUTTON A, KALITA J K. Automatic microblog classification and summarization[C] // Proceedings of Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics. Stroudsburg: The Association for Computational Linguistics, 2010: 685-688.
8INOUYE D. Multiple post microblog summarization[R]. Colorado Springs, GA: University of Colorado at Colorado Springs, 2010.
9YEUNG C-M A, IWATA T. Capturing implicit user influencein online social sharing[C] // Proceedings of the 21th ACM Conference on Hypertext and Hypermedia. New York: ACM, 2010:245-254.
10ANAGNOSTOPOULOS A, KUMAR R, MAHDIAN M. Influence and correlation in social networks[C] // KDD'08: Proceeding of the 14th ACM International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2008: 7-15.

共引文献34

1王连喜.微博短文本预处理及学习研究综述[J].图书情报工作,2013,57(11):125-131. 被引量：36
2魏萌,杨文涛.基于关键词的微博热点话题实时检测方法[J].计算机与现代化,2013(10):184-187.
3闫光辉,赵红运,任亚缙,陈勇.基于时间特性的微博热门话题检测算法研究[J].计算机应用研究,2014,31(1):43-46. 被引量：6
4江林升,张春霞.含关键字的新浪微博获取与舆情分析[J].宝鸡文理学院学报（自然科学版）,2014,34(1):51-54. 被引量：4
5谢思发,林琛,苏旋,江弋.Hadoop平台的微博热点事件挖掘[J].小型微型计算机系统,2014,35(4):797-801. 被引量：4
6谈成访,汪材印,张亚康.基于LDA模型的中文微博热点话题发现[J].宿州学院学报,2014,29(4):71-73. 被引量：6
7肖志军.一种面向社会网络的热点话题数据挖掘算法[J].计算机应用与软件,2014,31(6):24-28. 被引量：7
8陆瑶,李振婷.基于Hadoop的微博热点话题挖掘系统研究与设计[J].电子商务,2014,15(9):60-61.
9王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
10吴妮,赵捧未,秦春秀.基于语义分析和相似强度的微博热点发现方法[J].现代图书情报技术,2015(5):57-64. 被引量：12

同被引文献22

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
2石晶,戴国忠.基于PLSA模型的文本分割[J].计算机研究与发展,2007,44(2):242-248. 被引量：25
3洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
4张阔,李涓子,吴刚,王克宏.基于关键词元的话题内事件检测[J].计算机研究与发展,2009,46(2):245-252. 被引量：15
5张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
6程葳,龙志祎.面向互联网新闻的在线话题检测算法[J].计算机工程,2009,35(18):28-30. 被引量：8
7吕楠,罗军勇,刘尧,杨慧洁.基于话题三层结构模型的话题演化分析算法[J].计算机工程,2009,35(23):71-72. 被引量：10
8楚克明,李芳.基于LDA模型的新闻话题的演化[J].计算机应用与软件,2011,28(4):4-7. 被引量：29
9张小明,李舟军,巢文涵.基于增量型聚类的自动话题检测研究[J].软件学报,2012,23(6):1578-1587. 被引量：23
10胡艳丽,白亮,张维明.一种话题演化建模与分析方法[J].自动化学报,2012,38(10):1690-1697. 被引量：26

引证文献1

1理姗姗,杨文忠,王婷,王丽花.基于网络社交媒体的子话题检测技术综述[J].计算机应用,2020,40(6):1565-1573. 被引量：2

二级引证文献2

1郭莹,薛涛,胡伟华.面向热点话题检测的增量文本聚类算法[J].计算机系统应用,2022,31(9):280-286. 被引量：2
2芦子涵,郑中团.基于文本融合特征的突发事件子话题聚类研究[J].智能计算机与应用,2023,13(10):45-51.

1吴崇茂,冯晓霞,陈泽虹.基于NMI的织物疵点粗定位算法研究[J].闽南师范大学学报（自然科学版）,2014,27(1):44-49.
2吴晓阳.微博短文本检索关键技术[J].中国科技信息,2015(21):79-80.
3计长安,张秀彬,吴浩,应俊豪,赵兴勇,周雪莲,曾国辉.基于灰度权重NMI的快速图像匹配[J].计算机工程,2007,33(24):25-28. 被引量：6
4丁振国,胡志芳,朱建新.基于J2EE平台的在线考试系统的设计与实现[J].陕西理工学院学报（自然科学版）,2009,25(1):56-61. 被引量：6
5张霞,王建东,顾海花.一种改进的页面相似性度量方法[J].计算机工程与应用,2010,46(19):141-144. 被引量：4
6张宇,王行愚,张建华,金晶.离散粒子群优化-贝叶斯线性判别分析算法用于视觉事件相关电位P300的分类[J].中国生物医学工程学报,2010,29(1):46-52. 被引量：3
7颜喜宁.中波发射机房系统噪声抑制相关问题与措施[J].黑龙江科技信息,2017(9):15-15. 被引量：4
8吴朔媚,韩明,王敬涛.基于多尺度多方向结构元素的形态学图像边缘检测算法[J].量子电子学报,2017,34(3):278-285. 被引量：16
9郭月江,严馨,刘小惠,余正涛,线岩团,莫源源.融合主题和要素的汉柬可比语料获取方法[J].云南大学学报（自然科学版）,2017,39(3):360-368. 被引量：3
10孙永强.一种雷达模拟控制器控制板硬件设计[J].电子技术与软件工程,2017(11):102-102.

华南理工大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

抑制背景噪声的LDA子话题挖掘算法被引量：1

参考文献2

二级参考文献28

共引文献34

同被引文献22

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

抑制背景噪声的LDA子话题挖掘算法 被引量：1

参考文献2

二级参考文献28

共引文献34

同被引文献22

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

抑制背景噪声的LDA子话题挖掘算法被引量：1