官方微博关键词提取与摘要技术研究被引量：1

Keywords extraction and event summarization technology research on official microblog

下载PDF

导出

摘要官方微博中混杂有较多无关其组织团体的信息,这为事件的提取与摘要工作带来了很大挑战.论文综合考虑官方微博数据的特性,提出了语料加权、标签识别的官方微博事件摘要模型,并结合官微相关语料提出了一种语料加权排序的关键词计算方法(Corpus Weighted Ranking,CWR),为博文相似度计算和事件摘要提供了基础支撑.实验测试表明,与IF-IDF和TextRank方法相比较,CWR在关键词提取正确率P,召回率R和F值表现更好,并在后期选取权重较大句子构成事件摘要时取得了很好的效果. Official Microblog is the certified Microblog, whose account generally belongs to an organization. Its data are not only highlyreliable with clear-cut labels, but also have a strong social effect. To summarize the organhelp improve the reading efficiency . However,the official Microblog usually contains more information unrelated to the organization,which brings great challenges for event extraction and summary. The corpus-weighted and label-recognized model of official Microblog event summarization was proposed according to the characteristics of the official Microblog data, and keywords calculation method combined with the official relevant corpus was presented,providing a basic suppolog similarity calculation and event summarization. Experimental tests show that,compared with IF-IDF and TextRank method,CWRhave better performace in thematic term extraction precision rate P,the recall rate R and F value. And it achieved good results in thelater selecting weighted sentences for generating event summarization.

作者高永兵杨贵朋张娣 GAO Yong-bing;YANG Gui-peng;ZHANG Di(Information Engineering School,Inner Mongolia University of Science and Technology,Baotou 014010, China)

机构地区内蒙古科技大学信息工程学院

出处《内蒙古科技大学学报》 CAS 2017年第3期273-279,共7页 Journal of Inner Mongolia University of Science and Technology

基金内蒙古自治区科学基金资助项目(2015MS0621)

关键词官方微博关键词提取相似度事件摘要 TextRank Official Microblog Keywords extraction Similarity Event summarization TextRank

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1莫鹏,胡珀,黄湘冀,何婷婷.基于超图的文本摘要与关键词协同抽取研究[J].中文信息学报,2015,29(6):135-140. 被引量：11
2童薇,陈威,孟小峰.EDM:高效的微博事件检测算法[J].计算机科学与探索,2012,6(12):1076-1086. 被引量：19
3高永兵,钟振华,王宇,马占飞.基于混合方法的中文微博自动摘要技术研究[J].计算机工程与科学,2016,38(6):1257-1261. 被引量：5
4郭艳卿,赵锐,孔祥维,付海燕,蒋金平.基于事件要素加权的新闻摘要提取方法[J].计算机科学,2016,43(1):237-241. 被引量：8
5唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：142
6余珊珊,苏锦钿,李鹏飞.基于改进的TextRank的自动摘要提取方法[J].计算机科学,2016,43(6):240-247. 被引量：41
7赵斌,吉根林,曲维光,顾彦慧.基于转发图的微博事件主题摘要方法[J].南京师大学报（自然科学版）,2014,37(1):66-70. 被引量：2
8刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99

二级参考文献148

1张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
2陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
3Tversky A. Features of Similarity [J]. Psychological Review, 1977,84(4) : 327-352.
4Budanitsky A, Hirst G. Evaluating wordnet-based measures of lexical semantic relatedness [ J ]. Computational Linguistics, 2006,32(1) : 13-47.
5Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network[C]//Proceedings of the Second International Conference on Information and Knowledge Management(CIKM-93). Arlington,Virginia, 1993:67 74.
6Corley C, Mihalcea R. Measuring the semantic similarity of texts [C]//Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment. Ann Arbor, MI, US, June 2005 : 13-18.
7Fellbaum C. WordNet: An Electronic Lexical Database [M]. MIT Press, 1998.
8Fleischman M, Hovy E. Multi-document person name resolution [C]// Harabagiu S, Farwell D, eds. Proceedings of the Work-shop on Reference Resolution and its Applications. Barcelona, Spain,July 2004:1 8.
9Gurevych I, Strube M. Semantic similarity applied to spoken dia logue summarization[C]//Proceedings of the 20th International Conference on Computational Linguistics. Geneva, Switzerland, 2004:764-770.
10Hassaa H, Hassan A, Emam O. Unsupervised information extraction approach using graph mutual reinforcement[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Sydney,Australia,July 2006: 501-508.

共引文献313

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2
3韩佳良.浅谈综合调度与成本控制[J].城镇供水,2000(2):21-23.
4邱均平,楼雯.基于共现分析的语义信息检索研究[J].中国图书馆学报,2012,38(6):89-99. 被引量：18
5李文庆,谢红薇.基于医疗本体的语义相似度评估方法[J].计算机工程与设计,2013,34(4):1287-1291. 被引量：4
6陈庄,荆于勤.基于相似度计算的信息化项目与专家匹配方法[J].重庆理工大学学报（自然科学）,2013,27(4):81-84. 被引量：1
7秦玉平,唐亚伟,伦淑娴,王秀坤.一种基于二叉树的数学公式匹配算法[J].计算机科学,2013,40(5):251-252. 被引量：3
8孙萍萍.基于兴趣度和本体自适应学习的语义搜索算法研究[J].计算机应用与软件,2013,30(5):137-139. 被引量：2
9常万军,杨亚楠,郭祖华.家电产品设计知识的语义共享方案研究[J].计算机科学,2013,40(06A):407-408. 被引量：1
10甘丽新,涂伟,王明文,石松.基于混合相关的Markov网络信息检索扩展模型[J].中文信息学报,2013,27(4):83-88. 被引量：2

同被引文献4

1陈智鹏,吕玉琴,刘华生,刘刚,屠辉.基于N-gram统计模型的搜索引擎中文纠错[J].中国电子科学研究院学报,2009,4(3):323-326. 被引量：7
2刘亮亮,曹存根.基于局部上下文特征的组合的中文真词错误自动校对研究[J].计算机科学,2016,43(12):30-35. 被引量：8
3叶俊民,罗达雄,陈曙.基于层次化修正框架的文本纠错模型[J].电子学报,2021,49(2):401-407. 被引量：8
4高永兵,马宁.基于ERNIE和BiLSTM的中文名词隐喻识别[J].内蒙古科技大学学报,2021,40(3):276-281. 被引量：2

引证文献1

1高永兵,郑伟业,李春灿,姜春光.HM-BERT:一种采用分级掩码的风电语音文本纠正方法[J].内蒙古科技大学学报,2023,42(4):367-371.

1肖懋燕.试谈句群的句法和章法特点[J].上饶师范学院学报,1984,10(1):82-87.
2钟海军.语境理论在初中英语词汇教学中的应用研究[J].校园英语,2017,0(39):200-200. 被引量：1
3胡春红.这时代,每个人都值得发声[J].课堂内外（创新作文）（初中版）,2017,0(6):54-55.
4博文集萃[J].农家女,2017,0(10):4-4.
5范梦瑶.利用集成分类器进行稀有类分类[J].科技与创新,2017(24):46-48.
6李德华.句群浅议[J].宁夏师范学院学报,1984,15(1):109-115.
7赵振芳.运用“遗忘曲线”指导外语教学[J].淮阴师专学报（社会科学版）,1984,9(2):71-74.
8陈世集.民族文化艺术交流的寓意[J].美术,1988(11).
9高永兵,杨贵朋,张娣,马占飞.基于突显词博文聚类的官微事件检测方法[J].数据分析与知识发现,2017,1(9):57-64. 被引量：2
10李艳.对偶辞种种[J].上饶师范学院学报,1984,10(4):46-48.

内蒙古科技大学学报

2017年第3期

浏览历史

内容加载中请稍等...

官方微博关键词提取与摘要技术研究被引量：1

参考文献8

二级参考文献148

共引文献313

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

官方微博关键词提取与摘要技术研究 被引量：1

参考文献8

二级参考文献148

共引文献313

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

官方微博关键词提取与摘要技术研究被引量：1