-
题名基于深度学习的海洋热点新闻挖掘方法
- 1
-
-
作者
覃娴萍
丁昭旭
仲国强
王栋
-
机构
中国海洋大学计算机科学与技术学院
中国海洋大学图书馆
-
出处
《计算机科学》
CSCD
北大核心
2024年第S02期98-107,共10页
-
基金
科技创新2030-“新一代人工智能”重大项目(2018AAA0100400)
山东省自然科学基金(ZR2020MF131,ZR2021ZD19)
+1 种基金
青岛市科技计划项目(21-1-4-ny-19-nsh)
中国海洋大学图书情报研究基金(202253006)。
-
文摘
移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相关媒体报道、公众舆论在网上大量涌现,热点事件频频发生。针对多来源、多属性的网络海洋信息,基于多源文本聚类和自动摘要技术,提出一种基于深度学习的海洋热点新闻自动挖掘系统,包括多源涉海数据自动采集、数据预处理、特征提取、文本聚类、自动摘要五大功能模块。具体而言,网络爬虫程序从多个数据源采集多样且分散的海洋数据,自动将数据结构化后存入数据库;根据文本特征的近似程度和文本间的关联关系实现聚类分析,聚类结果为后继摘要生成、主题发现提供数据支撑;基于预训练语言模型强大的上下文理解能力和丰富的语言表达能力,提出基于预训练语言模型的海洋新闻自动摘要生成方法。通过多组实验证明了所提方法在各个评估指标上的有效性,突显出其在多源异构网络海洋新闻挖掘方面的优势。该方法为处理分散的海洋资讯信息、生成可读性更强的内容摘要提供可行的解决方案,对提高海洋信息获取效率、监测公众舆论走向、推动海洋信息的应用与传播具有重要意义。
-
关键词
海洋新闻
文本聚类
自动摘要
深度学习
自然语言处理
预训练模型
-
Keywords
Ocean news
Text clustering
Automatic summarization
Deep learning
Natural language processing
Pre-trained model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-