期刊文献+

基于机器阅读理解的新闻时间线挖掘与展示 被引量:2

News Timeline Mining and Presentation Based on Machine Reading Comprehension
下载PDF
导出
摘要 [目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。 [Purpose/significance]In order to solve the problem of information overload,this paper attempts to automatically extract news events from a large number of news reports and show them to users according to chronological order.[Method/process]We use web crawler to automatically obtain the raw news,then entity extraction is performed using the methods of prime sentence determination and Roberta-MRC.Semantic information is extracted from unstructured content and generates structured news summary.On this basis,time in the summary is normalized,and the news timeline is generated in chronological order.[Result/conclusion]The experimental results show that prime sentence determination and Roberta-MRC have better entity extraction effect than the traditional method.The timeline system can also help users quickly understand a news topic and improve the efficiency of information acquisition.
出处 《情报理论与实践》 CSSCI 北大核心 2022年第4期184-189,共6页 Information Studies:Theory & Application
基金 国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”的阶段研究成果之一,项目编号:17BTQ066。
关键词 新闻时间线 事件演变 机器阅读理解 命名实体识别 事件抽取 news timeline event evolution machine reading comprehension named entity recognition event extraction
  • 相关文献

参考文献7

二级参考文献59

共引文献129

同被引文献17

引证文献2

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部