-
题名基于机器阅读理解的新闻时间线挖掘与展示
被引量:2
- 1
-
-
作者
李珂
陈彦如
郑文蛟
化柏林
-
机构
北京大学信息管理系
-
出处
《情报理论与实践》
CSSCI
北大核心
2022年第4期184-189,共6页
-
基金
国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”的阶段研究成果之一,项目编号:17BTQ066。
-
文摘
[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,文章设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。
-
关键词
新闻时间线
事件演变
机器阅读理解
命名实体识别
事件抽取
-
Keywords
news timeline
event evolution
machine reading comprehension
named entity recognition
event extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名欧美科技政策文本扫描与监测系统实现
被引量:1
- 2
-
-
作者
于达海
常奥飞
化柏林
王宏光
郑文蛟
-
机构
北京大学信息管理系
香港大学经管学院
-
出处
《科技情报研究》
CSSCI
2023年第1期43-57,共15页
-
基金
国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”(编号:17BTQ066)。
-
文摘
[目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓取相应的科技政策文本并进行分析挖掘,在当前的国际环境下具有重要意义。[方法/过程]本研究设计并实现了欧美科技政策文本扫描与监测系统,主要包括数据库层、数据实体层、业务逻辑层和界面层4层体系架构,实现了定期采集、翻译、关键词抽取、技术实体抽取、自动摘要、政策文本分类以及演化分析等功能,为科技政策的制定与规划提供了重要的决策支持。[结果/结论]欧美科技政策文本扫描与监测系统有助于第一时间监测欧美科技政策最新动态,把握欧美科技政策的演化进程与趋势,及时窥探欧美科技政策的规划与布局,为我国科技政策的制定、规划与完善提供完备的信息支撑与决策参考。
-
关键词
科技政策
网络爬虫
机器学习
文本挖掘
信息抽取
-
Keywords
science and technology policy
web crawler
machine learning
text mining
information extraction
-
分类号
C356
[社会学]
-