聚类标注和多粒度特征融合的基金新闻分类

Fund News Classification Based on Clustering Annotation and Multi Granularity Feature Fusion

下载PDF

导出

摘要针对人工标注类别耗时耗力、效率低,以及现有文本分类方法忽略词语、句子之间关系,未对文本分类关键特征赋予更高权重等问题,提出了一种基于聚类加权标注和多粒度特征融合的基金新闻分类方法.基于聚类加权的类别标注算法将K-Means和DBSCAN的聚类结果进行加权计算并自动标注基金文本数据,辅以少量人工校对,为后续基金新闻分类提供数据支撑.多粒度特征融合的分类算法首先从词粒度出发构建停用词表、扩展词典;其次从句粒度出发抽取新闻摘要,捕捉更具有语义关联的文本信息;最后将多头注意力机制嵌入BERT模型,对关键特征赋予更高权重,以提高分类的准确性.本文从多个角度进行了充分地实验,该方法具有高效的处理能力和有效性,其分类精确率可达到95.21%,优于现有方法. This paper proposes a fund news classification method based on cluster-weighted labeling and multi-granularity feature fusion,aiming to address issues such as time-consuming and laborious manual category labeling and the neglect of word and sentence relationships in existing text classification methods,as well as the lower weight of key features in text classification.The category labeling algorithm based on cluster-weighted labeling calculates and automatically labels fund text data based on the weighted results of K-Means and DBSCAN clustering,which is supported by a small amount of manual correction to facilitate fund news classification.The multi-granularity feature fusion classification algorithm first constructs a stop word table and an extended dictionary from the word granularity and then extracts news summaries from the sentence granularity to capture more semantically related text information.Then,multi-head attention mechanism is integrated into BERT model to assign higher weights to key features,thus improving the accuracy of classification.The proposed method is rigorously tested from multiple aspects and demonstrates high efficiency and validity,achieving a classification precision of 95.21%,outperforming existing methods.

作者胡菊香吕学强游新冬周建设 HU Juxiang;L Xueqiang;YOU Xindong;ZHOU Jianshe(Research Center for Language Intelligence of China,Capital Normal University,Beijing 100048,China;Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区首都师范大学中国语言智能研究中心北京信息科技大学网络文化与数字传播北京市重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2024年第2期257-264,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(62171043)资助北京市自然科学基金项目(4212020)资助国家语委项目(ZDI145-10,YB145-3)资助北京市教育委员会科学研究计划项目(KM202111232001)资助。

关键词多粒度特征融合文本分类深度学习 multi-granularity feature fusion text classification deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1吴峰,谢聪,姬少培.基于跨领域迁移的AM-AdpGRU金融文本分类[J].应用科学学报,2022,40(5):828-837. 被引量：3
2刘壮,刘畅,Wayne Lin,赵军.用于金融文本挖掘的多任务学习预训练金融语言模型[J].计算机研究与发展,2021,58(8):1761-1772. 被引量：9
3朱鹤,陆小锋,薛雷.基于BERT的金融文本情感分析模型[J].上海大学学报（自然科学版）,2023,29(1):118-128. 被引量：6
4谢志峰,吴佳萍,马利庄.基于卷积神经网络的中文财经新闻分类方法[J].山东大学学报（工学版）,2018,48(3):34-39. 被引量：5
5许雪晨,田侃.一种基于金融文本情感分析的股票指数预测新方法[J].数量经济技术经济研究,2021,38(12):124-145. 被引量：15
6赵澄,叶耀威,姚明海.基于金融文本情感的股票波动预测[J].计算机科学,2020,47(5):79-83. 被引量：13
7宫衍圣,蔡科平,王志强,李鑫鑫,靖稳峰.基于机器学习的文本半自动类别标注方法[J].工程数学学报,2021,38(6):751-762. 被引量：2
8阳爱民,周咏梅,周剑峰.中文微博语料情感类别自动标注方法[J].计算机应用,2014,34(8):2188-2191. 被引量：5
9孙红,陈强越.融合BERT词嵌入和注意力机制的中文文本分类[J].小型微型计算机系统,2022,43(1):22-26. 被引量：16
10Md Masum Billah,Mohammad Nuruzzaman Bhuiyan,Md.Akterujjaman.Unsupervised method of clustering and labeling of the online product based on reviews[J].International Journal of Modeling, Simulation, and Scientific Computing,2021,12(2):175-197. 被引量：2

二级参考文献33

1肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
2YANG A,ZHOU Y,LIN J.A method of Chinese texts sentiment classification based on Bayesian algorithm [J].Applied Mechanics and Materials,2012,263/264/265/266:2185-2190.
3YANG A,LIN J,ZHOU Y,et al.Research on building a Chinese sentiment lexicon based on SO-PMI [J].Applied Mechanics and Materials,2012,263/264/265/266:1688-1693.
4中国计算机学会.评测测试数据[EB/OL].[2013-12-10].http://tcci.ccf.org.cn/conference/2013/pages/page04_tdata.html.
5大连理工大学信息检索研究室.情感词汇本体库[EB/OL].[2014-01-18].http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx?utm_source=weibolife.
6姜飞,张辉,刘奕群,等.THUIR-Senti中文微博情绪分析评测报告[EB/OL].[2013-12-02].http://tcci.ccf.org.cn/conference/2013/dldoc/evrpt02.rar.
7孙晓,叶嘉琪,唐诚意,等.基于多粒度模型的中文微博情感分析[EB/OL].[2013-12-02].http://tcci.ccf.org.cn/conference/2013/dldoc/evrpt02.rar.
8徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122. 被引量：110
9黄贤立.基于典型相关分析的多视图跨领域情感分类[J].计算机工程,2010,36(24):186-188. 被引量：6
10徐国祥,杨振建.PCA-GA-SVM模型的构建及应用研究——沪深300指数预测精度实证分析[J].数量经济技术经济研究,2011,28(2):135-147. 被引量：36

共引文献63

1赵帅斌,林旭东,翁晓健.基于经验模态分解与投资者情绪的Attention-BiLSTM股价趋势预测模型[J].计算机应用,2023,43(S01):112-118.
2周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3
3杜娇,钱育蓉,范迎迎.商品评论情感倾向性研究[J].电脑知识与技术,2017,13(7X):241-243.
4陈红琳,魏瑞斌,张玮,张宇航.基于共词分析的国内文本情感分析研究[J].现代情报,2019,39(6):91-101. 被引量：14
5李钰曼,陈志泊,许福.基于KACC模型的文本分类研究[J].数据分析与知识发现,2019,3(10):89-97. 被引量：4
6林江豪,顾也力,周咏梅,阳爱民,陈锦.基于主题聚类的短文本情绪分类方法[J].计算机与数字工程,2020,48(6):1400-1404.
7王程广,阮聪慧.基于丝绸之路核心区设立背景下的新疆上市公司股票波动性研究[J].中国证券期货,2020(2):49-56.
8唐晓波,高和璇.基于关键词词向量特征扩展的健康问句分类研究[J].数据分析与知识发现,2020,4(7):66-75. 被引量：8
9郑树挺,徐菲菲.基于改进Self-Attention的股价趋势预测[J].计算机技术与发展,2021,31(3):33-38. 被引量：2
10姚宏亮,董伟伟,王浩,杨静.意愿计算的股市突变点预测方法[J].计算机应用研究,2021,38(4):1108-1112.

1郭泓,尚庆生,赵薇,韩运龙.基于贝叶斯算法的中文新闻标题分类研究[J].现代信息科技,2023,7(23):89-92.
2新闻摘要[J].中国设备工程,2024(2):1-1.
3兰正寅,周艳玲,张龑,曾张帆.基于RoBERTa-ATTLSTM新闻分类方法研究[J].计算机与数字工程,2023,51(11):2620-2626.
4本刊微信公众号“前沿报道”栏目征稿通知[J].中华皮肤科杂志,2024,57(2):122-122.
5余小刚.基层学校需要什么样的教育新闻[J].四川教育,2024(3):47-48.
6新闻摘要·请扫描二维码阅读全文[J].中国设备工程,2024(4):1-1.
7朱文龙,陈羽中,饶孟宇.一种基于动态异构图的谣言检测模型[J].小型微型计算机系统,2024,45(2):319-326.
8郑超凡,陈羽中,徐俊杰.一种用于答案选择的知识增强图卷积网络[J].小型微型计算机系统,2024,45(2):278-284.
9郭瑞萍,王海荣,王栋.图文数据的多级关系分析与挖掘方法[J].北京航空航天大学学报,2024,50(2):684-694.

小型微型计算机系统

2024年第2期

浏览历史

内容加载中请稍等...

聚类标注和多粒度特征融合的基金新闻分类

参考文献11

二级参考文献33

共引文献63

相关作者

相关机构

相关主题

浏览历史