基于语义分析的微博热点话题发现技术研究被引量：3

Research of micro-blog's hot topic detection technology based on semantic analysis

下载PDF

导出

摘要近年来,微博热点话题发现已经成为当前网络舆情分析研究的热点.本文针对微博信息的碎片化、口语化等短文本特点,为解决向量空间模型(VSM)文本表示方法存在高维度、稀疏,及同义多义等问题,采用潜在语义分析法对微博信息进行建模,再通过贝叶斯分类算法实现话题发现.并采用J2EE开发包及Eclipse集成开发环境,结合Hibernate,Lucene等技术实现了微博热点话题发现系统,实验表明这种方法是有效的. The hot topics of micro-blog detecting has become the current research focuses of Internet public opinion information. In order to solve the existing problems of high-dimension, sparse, synonymy and polysemy from the Vector Space Model （VSM） text presentation, the micro-blog information model was developed using LSA for the short texts of the fragment, colloquial micro blog informa- tion,then the topic detection was achieved through the Bayesian classification algorithm. Furthermore, the micro blog topic detecting system was constructed by adopting software developer＇s kit J2EE, the integrated development environment Eclipse and techniques such as Hibernate and Lucene, and the operation of the system was proved to be effective.

作者柏建普田芳

机构地区内蒙古科技大学信息与工程学院

出处《内蒙古科技大学学报》 CAS 2013年第3期283-286,共4页 Journal of Inner Mongolia University of Science and Technology

关键词语义分析微博热点话题发现 semantic analysis micro blogs hot topics topic detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1Allan J.Carbonell J,Doddington G,et al. Topicdetection andtracking pilot study : Finalreport [ A ]. In : proceedings of theDARPA broadcast news transcription and understandingworkshop[C]. Virginia : Lansdowiie, Febmary 1998 : 194-218.
2杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
3朱望斌.自动文本分类算法研究[D].长沙:湖南大学,2006.

二级参考文献12

1Chang CH, Kayed M, Girgis MR, Shaalan K. A survey of Web information extraction systems. IEEE Trans. on Knowledge and Data Engineering, 2006,18(10): 1411-1428.
2Gold ME. Language identification in the limit. Information and Control, 1967,10(5):447-474.
3Laender AHF, Ribeiro-Neto BA, da Silva AD, Teixeira JS. A brief survey of Web data extraction tools. SIGMOD Record, 2002,31 (2):84-93.
4Arasu A, Hector GM. Extracting structured data from Web pages. In: Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. San Diego: ACM Press, 2003. 337-348.
5EXALG datasets, http://infolab.stanford.edu/-arvind/extract/
6TBDW v1.02, http://daisen.cc.kyushu-u.ac.jp/TBDW/testbed/
7Zhao HK, Meng WY, Wu ZH, Raghavan V, Yu C. Fully automatic wrapper generation for search engines. In: Proc. of the 14th Int'l Conf. on World Wide Web (WWW 2005). Chiba: ACM Press, 2005.66-75.
8Simon K, Lausen G. VIPER: Augmenting automatic information extraction with visual perceptions. In: Proc. of the ACM CIKM Int'l Conf. on Information and Knowledge Management. Bremen: ACM Press, 2005. 381-388.
9Crescenzi V, Mecca G, Meraldo P. RoadRunner: Towards automatic data extraction from large Web sites. In: Proc. of the 27th Int'l Conf. on Very Large Data Bases (VLDB 2001). Roma: Morgan Kaufmann Publishers, 2001. 109-118.
10Wang JY, Lochovsky FH. Data extraction and label assignment for Web databases. In: Proc. of the 12th Int'l World Wide Web Conf. (WWW 2003). Budapest: ACM Press, 2003. 187-196.

共引文献44

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33. 被引量：2
3耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
4陈治昂,周知予,李大学.一种基于模板的快速网页文本自动抽取算法[J].计算机应用研究,2009,26(7):2646-2649. 被引量：11
5张彦超,刘云,李勇,沈波.基于自动生成模板的Web信息抽取技术[J].北京交通大学学报,2009,33(5):40-45. 被引量：13
6周佳颖,朱珍民,高晓芳.基于统计与正文特征的中文网页正文抽取研究[J].中文信息学报,2009,23(5):80-85. 被引量：16
7李广建,乔建忠.全自动生成网页信息抽取包装器的主要技术方法研究[J].情报理论与实践,2010,33(1):100-104. 被引量：4
8寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：16
9赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
10关冕,马军.针对Web论坛的一种结构化数据自动抽取方法[J].山东大学学报（理学版）,2010,45(5):42-47. 被引量：1

同被引文献33

1洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
2Urban J, Bulkow K. Tracing public opinion online-an example of use for social network analysis in communication research [J]. Procedia-Social and Behavioral Sciences, 2013, 100 (7): 108-126.
3Zhang C, Fan X, Chen X. Hot topic detection on Chinese short text [M]. Advanced Research on Computer Education, Simulation and Modeling. Springer Berlin Heidelberg, 2011 : 207-212.
4Yang C, Yang J, Ding H, et al. A hot topic detection ap- proach on Chinese micro-blogging [J]. Electrical Engineering, 2013, 4 (3): 411-420.
5Hu C, Weng Y, Zhang X, et al. Hot topic detection based on opinion analysis for web forums in distributed environment [M]. Intelligent Distributed Computing III. Springer Berlin Heidelberg, 2009:101-110.
6郭岩,刘春阳,余智华,张瑾,戴媛.网络舆情信息源影响力的评估研究[J].中文信息学报,2011,25(3):64-71. 被引量：28
7黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：216
8胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J].国防科技大学学报,2012,34(1):150-154. 被引量：29
9马彬,洪宇,陆剑江,姚建民,朱巧明.基于线索树双层聚类的微博话题检测[J].中文信息学报,2012,26(6):121-128. 被引量：16
10路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54

引证文献3

1李情情,鲁燃,朱振方,刘颖莹.基于特定用户角色的热度计算方法及应用[J].计算机工程与设计,2016,37(5):1201-1207. 被引量：5
2王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
3胡俊睿,邹海涛,郑尚,于化龙,高尚.基于传播特征的微博流行度预测算法研究[J].计算机与数字工程,2023,51(4):763-768.

二级引证文献32

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：12
3姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
4高继轩.《压力容器安全技术监察规程》问答[J].中国锅炉压力容器安全,2000,16(2):27-29. 被引量：3
5裴可锋,陈永洲,马静.基于DTPM模型的话题热度预测方法[J].情报杂志,2016,35(12):52-57. 被引量：11
6李爱军,常彤.微博热度研究现状及未来发展方向[J].山西科技,2018,33(2):8-11.
7贾隆嘉,张邦佐.高校网络舆情安全中主题分类方法研究——以新浪微博数据为例[J].数据分析与知识发现,2018,2(7):55-62. 被引量：5
8黄晓辉,王成,何雄,曾辉.基于演化聚类的社交媒体舆情分析方法综述[J].科学技术与工程,2018,18(29):154-161. 被引量：5
9徐建国,韩青君,李青.K-means聚类算法及其在网络舆情中的应用[J].软件导刊,2018,17(11):65-67. 被引量：1
10曹彦波.基于新浪微博的2018年云南通海5.0级地震舆情时空特征分析[J].地震研究,2018,41(4):525-533. 被引量：16

1张伟舒,吕云翔.微博情感倾向算法的改进与实现[J].知识管理论坛,2013(9):21-27. 被引量：8
2高欣,张建莉,兰坤.基于Android平台师生选课答疑系统的设计与实现[J].农业网络信息,2014(10):119-120. 被引量：2
3陈畅.基于Android平台的网络云相册设计与实现[J].科技致富向导,2014,0(36):123-123.
4陈宝平.浅议多媒体语文教学要适合学科特点及文本特点[J].甘肃科技纵横,2008,37(3):185-185. 被引量：1
5崔瑞飞,于洪涛,杨赟,李星.基于评论树的微博社区热门话题检测方法[J].计算机应用研究,2014,31(12):3776-3779. 被引量：4
6孙师尧,妙全兴.基于改进HMM的半结构化文本信息抽取算法研究[J].电子科技,2014,27(10):111-114. 被引量：5
7晏西国,王建功,卜庆凯.基于C/S模式的Android手机表决系统研究[J].青岛大学学报（工程技术版）,2014,29(3):28-31.
8李雪红,郭晖,闫泓涛.基于改进依存句法的微博情感分析研究[J].计算机与数字工程,2017,45(3):506-511. 被引量：1
9黎红,胡军成,张艳梅,潘光洋.基于云计算的网络课堂及研讨平台研究[J].阴山学刊（自然科学版）,2017,31(1):59-63.
10张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4

内蒙古科技大学学报

2013年第3期

浏览历史

内容加载中请稍等...

基于语义分析的微博热点话题发现技术研究被引量：3

参考文献3

二级参考文献12

共引文献44

同被引文献33

引证文献3

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于语义分析的微博热点话题发现技术研究 被引量：3

参考文献3

二级参考文献12

共引文献44

同被引文献33

引证文献3

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于语义分析的微博热点话题发现技术研究被引量：3