微博内容自动抽取方法研究

Automatically Extracting Microblog Posts From Different Service Platforms

下载PDF

导出

摘要在采用分类机器学习算法的基础上,提出有效的特征集,实现不同微博平台上内容的自动抽取。根据对微博页面的预处理粒度不同,讨论了token和line两种粒度。在特征选取方面沿用了传统的Text-to-Tag Ratio,并结合微博内容文本的相关特性,提出了Text-to-Text Relation和Post-Social特征。实验结果表明,支持向量机与Text-to-Tag Ratio、Text-to-Text Relation和Post-Social 3个特征相结合的抽取结果最佳。 This paper aims at studying efficient algorithms to extract the microblog posts in a HTML page, based on machine learning algorithm. According to the different granularities of the web page prepossessing, we consider token and line based text blocks. Then in terms of feature selection, we propose the Text-to-Text Relation and Post-Social features that are combined with the traditional Text-to-Tag Ratio feature. Our experimental results show that SVM with the three features has the best performance in terms of precision.

作者冯海涛李琳黄炎一余小婷 FENG Hai-tao LI Lin HUANG Yan-yi YU Xiao-ting(School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430070, China Air Force Early Warnming Academy, Wuhan 430021, China School of Management, Huazhong University of Science and Technology, Wuhan 430070, China)

机构地区武汉理工大学计算机科学与技术学院空军预警学院黄陂士官学校华中科技大学管理学院

出处《辽宁工业大学学报（自然科学版）》 2017年第1期13-16,共4页 Journal of Liaoning University of Technology(Natural Science Edition)

基金国家社会科学基金(15BGL048) 国家863计划项目(2015AA015403)

关键词微博内容抽取机器学习特征选择 microblog content extraction machine learning feature selection

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1张剑峰,夏云庆,姚建民.微博文本处理研究综述[J].中文信息学报,2012,26(4):21-27. 被引量：54
2文坤梅,徐帅,李瑞轩,辜希武,李玉华.微博及中文微博信息处理研究综述[J].中文信息学报,2012,26(6):27-37. 被引量：37
3王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
4刘军,张净.基于DOM的网页主题信息的抽取[J].计算机应用与软件,2010,27(5):188-190. 被引量：19
5李志义,沈之锐,义梅练.贝叶斯分类算法在社交网站信息过滤中的应用分析[J].图书情报工作,2014,58(13):100-106. 被引量：5
6林江豪,阳爱民,周咏梅,陈锦,蔡泽键.一种基于朴素贝叶斯的微博情感分类[J].计算机工程与科学,2012,34(9):160-165. 被引量：43
7张传岩,洪晓光,彭朝晖,李庆忠.基于SVM和扩展条件随机场的Web实体活动抽取[J].软件学报,2012,23(10):2612-2627. 被引量：14
8张春元.基于条件随机场的文本分类模型[J].计算机技术与发展,2011,21(7):77-80. 被引量：5

二级参考文献193

1朱雪彤,王永利.移动社交网络中用户上下文的自动识别与共享[J].南京理工大学学报,2013,37(4):500-505. 被引量：4
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
6赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
7朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
8金澎,刘毅,王树梅.汉语分词对中文搜索引擎检索性能的影响[J].情报学报,2006,25(1):21-24. 被引量：6
9黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
10刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73

共引文献204

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：1
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
4郑婧,孙卫.国内自然语言处理技术研究与应用的状态[J].数字图书馆论坛,2008(7):27-31. 被引量：1
5丁凡,王斌,白硕,刘宜轩,李亚楠.文档检索中句法信息的有效利用研究[J].中文信息学报,2008,22(4):66-74. 被引量：4
6徐磊.基于NLP的信息检索[J].黑龙江教育学院学报,2008,27(3):160-161. 被引量：3
7董燕举,蔡东风,白宇.面向事实性问题的答案选择技术研究综述[J].中文信息学报,2009,23(1):86-94.
8刘爽,孙光明,刘奕.基于数字水印的档案数据库安全策略研究[J].情报科学,2010,28(2):271-273. 被引量：2
9林源,陈志泊,孙俏.计算机领域术语的自动获取与层次构建[J].计算机工程,2011,37(2):172-174. 被引量：4
10戚欣,肖敏,孙建鹏.基于本体知识库的自动语义标注[J].计算机应用研究,2011,28(5):1742-1744. 被引量：9

1Hui Guan,Wei-Ru Chen,Ning Huang,Hong-Ji Yang.Estimation of Reliability and Cost Relationship for Architecture-based Software[J].International Journal of Automation and computing,2010,7(4):603-610.
2LI Hua-bing.Exploring Image Text Relation in College English Textbooks[J].Sino-US English Teaching,2015,12(3):176-181.
3潘磊.小工具,大能耐[J].通信技术,2005(8):104-105.
4冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
5朱西讲.巧用SET RELATION与JOIN命令[J].电脑,1995(3):67-67.
6朱西讲.巧用SET RELATION与JOIN命令[J].电脑技术——Hello-IT,1995(10):38-38.
7何啸,麻志毅,张岩,邵维忠.扩展QVT Relations实现业务流程模型的转换[J].软件学报,2011,22(2):195-210. 被引量：1
8LI ZhiQing,MA ShuGen,LI Bin,WANG MingHui,WANG YueChao.Analysis of the constraint relation between ground and self-adaptive mobile mechanism of a transformable wheel-track robot[J].Science China(Technological Sciences),2011,54(3):610-624. 被引量：7
9张明敏.DBASE Ⅳ中联结操作方式的比较[J].计算机应用,1992,12(3):58-60.
10QIU Lemiao,LIU Xiaojian,ZHANG Shuyou,SUN Liangfeng.Disassemblability Modeling Technology of Configurable Product Based on Disassembly Constraint Relation Weighted Design Structure Matrix(DSM)[J].Chinese Journal of Mechanical Engineering,2014,27(3):511-519. 被引量：3

辽宁工业大学学报（自然科学版）

2017年第1期

浏览历史

内容加载中请稍等...

微博内容自动抽取方法研究

参考文献8

二级参考文献193

共引文献204

相关作者

相关机构

相关主题

浏览历史