传统与大模型并举:中文文本分类技术对比研究

Comparative study on traditional and large model-based techniques for Chinese text classification: Leveraging both paradigms

下载PDF

导出

摘要本文专注于探索与实践中文文本分类技术的演进,通过严谨的实证对比研究,检验了传统技术方法与基于大模型的先进算法在各类文本分类任务中的表现差异。研究在涵盖情感分析的基础数据集和富含复杂专业信息的多类别文本数据集上展开了深入探索,系统性地对比了传统统计学习方法、经典深度学习算法与当前极具影响力的预训练大模型(如BERT、LLM等)。研究核心围绕提升分类准确性这一关键目标,同时审视各模型在资源效率及训练时效性方面的能力。针对预训练大模型,利用了提示工程技术和模型微调手段,以期优化其性能表现。实验结果揭示了大模型在理解和利用语言上下文、提高泛化性能方面的显著优势,在不同数据集、验证集上普遍能降低10%以上的错误率,同时证实了在特定情境下传统技术依然具备独特且有效的应用价值。通过系统化的对比分析,本文旨在为中文文本分类技术的科学选型及未来发展方向提供有力依据与导向。 This paper focuses on exploring and practicing the evolution of Chinese text performance differences between traditional methods and advanced algorithms based on large models across various text classification tasks.The paper delves into extensive investigations across foundational datasets for sentiment analysis and multi-class text datasets laden with intricate professional information,systematically comparing traditional statistical learning approaches,classical deep learning algorithms,and the currently influential pre-trained large models such as BERT and LLMs.Central to the proposed research is the enhancement of classification accuracy,while concurrently assessing the resource efficiency and training time effectiveness of each model.With respect to pretrained large models,the paper employs prompt engineering techniques and model fine-tuning strategies to optimize their performance.The proposed experimental outcomes vividly demonstrate the substantial advantages of large models in understanding and leveraging linguistic context,thereby boosting generalization capabilities,universally reduces the error rate by more than 10%across diverse datasets and validation sets.Meanwhile,the proposed findings confirm the unique and effective application value of conventional techniques under specific scenarios.Through systematic comparative analyses,this study aims to provide strong evidence and direction for the scientific selection and future development path of Chinese text classification technologies.

作者文飞 WEN Fei(ZhongZhuoxin(Beijing)Technology Co.,Ltd.,Beijing 100085,China)

机构地区中卓信(北京)科技有限公司

出处《智能计算机与应用》 2024年第6期88-94,共7页 Intelligent Computer and Applications

关键词文本分类 BERT 预训练大语言模型提示工程微调小样本学习 text classification BERT pre-trained large language models prompt engineering fine-tuning few-shot learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1严佩敏,唐婉琪.基于改进BERT的中文文本分类[J].工业控制计算机,2020,33(7):108-110. 被引量：12
2李可悦,陈轶,牛少彰.基于BERT的社交电商文本分类算法[J].计算机科学,2021,48(2):87-92. 被引量：20
3张铭泉,周辉,曹锦纲.基于注意力机制的双BERT有向情感文本分类研究[J].智能系统学报,2022,17(6):1220-1227. 被引量：8
4王淼,丁德锐.SmBERT(SmallerBert):一种更小更快的文本分类模型[J].智能计算机与应用,2023,13(1):129-135. 被引量：2

二级参考文献10

1刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27
2范焱,陈恩红,王清毅,蔡庆生,刘洁.超文本协调分类器的性能研究[J].计算机研究与发展,2000,37(9):1026-1031. 被引量：3
3李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57
4黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：52
5王宝义.“新零售”的本质、成因及实践动向[J].中国流通经济,2017,31(7):3-11. 被引量：270
6张宜浩,朱小飞,徐传运,董世都.基于用户评论的深度情感分析和多视图协同融合的混合推荐方法[J].计算机学报,2019,42(6):1316-1333. 被引量：57
7Jiahui He,Chaozhi Wang,Hongyu Wu,Leiming Yan,Christian Lu.Multi-Label Chinese Comments Categorization: Comparison of Multi-Label Learning Algorithms[J].Journal of New Media,2019,1(2):51-61. 被引量：4
8蔡庆平,马海群.基于Word2Vec和CNN的产品评论细粒度情感分析模型[J].图书情报工作,2020,64(6):49-58. 被引量：31
9QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：159
10翟学明,魏巍.混合神经网络和条件随机场相结合的文本情感分析[J].智能系统学报,2021,16(2):202-209. 被引量：4

共引文献38

1李欣儒,贺超城,黄茜,吴江.多层信任视角下的共享服务平台用户预定行为研究[J].知识管理论坛,2023(2):140-154. 被引量：2
2徐维军,付志能,李茂昌,张卫国.基于新闻文本挖掘的股指期货高频预测研究[J].系统科学与数学,2021,41(7):1856-1875. 被引量：2
3林国祥,詹先银,薛醒思,林涵,吕宏昱,林培辉,方铭波.基于fastText的股票咨询案例中文短文本分类技术[J].宝鸡文理学院学报（自然科学版）,2020,40(3):48-52. 被引量：3
4蔡鑫鹏,贾正望,刘华军.基于雷达测量的用于炮位侦察的Transformer网络[J].南京理工大学学报,2021,45(2):189-196. 被引量：1
5赵姝颖,肖宁,曾华圣,王海兮,常明芳.基于RoBerta的立场检测与趋势预测模型设计[J].应用科技,2021,48(3):27-33. 被引量：4
6王立梅,朱旭光,汪德嘉,张勇,邢春晓.基于深度学习的民事案件判决结果分类方法研究[J].计算机科学,2021,48(8):80-85. 被引量：8
7陈国心.基于自然语言处理的评教文本分类与分析[J].西安航空学院学报,2021,39(3):91-96.
8曹京晶,王莹,王烨,陈皓,张雪,张晓夏,朱晓晨.美国科学基金资助热点布局及对我国海洋领域规划的借鉴[J].情报工程,2021,7(5):62-74. 被引量：1
9安波.文字知识图谱构建及应用[J].中国科技资源导刊,2022,54(1):76-82.
10王国泰,董晶晶,高杨,王乾.基于Bert预训练模型的虚假新闻文本检测[J].信息技术,2022,46(1):137-142. 被引量：2

1程岩.大数据发展形势下矿山测绘地理信息服务的探讨[J].世界有色金属,2024(9):157-159.
2李文涛.房屋建筑工程混凝土后浇带施工技术[J].中文科技期刊数据库（文摘版）工程技术,2024(2):0181-0184.
3李柏霖.绿色建筑电气节能技术要点与应用研究[J].电力设备管理,2024(8):256-258.
4杨文婧.流量仪表在石化行业中的合理选型及应用[J].中文科技期刊数据库（全文版）工程技术,2019(6):178-179.
5曹亮.公路桥梁墩柱施工方法研究[J].运输经理世界,2023(27):58-60. 被引量：1
6顾洋洋.低压供配电系统中智能节电器的运用[J].大众标准化,2024(11):42-44. 被引量：1
7周锐.基于报刊语篇的汉德表称义动词关系结构的实证对比研究[J].大众文艺（学术版）,2024(8):76-78.
8赵梦瑶,薛萌,赵君彦,尹士.河北省葡萄种植成本效益评价及提升路径[J].中国果树,2024(3):121-127. 被引量：1
9西班牙:清洗设备助力柑桔加工厂节水[J].中国果业信息,2024,41(7):47-47.
10罗杰.全新电动车平台下车体技术开发研究[J].中国科技期刊数据库工业A,2024(1):0136-0139.

智能计算机与应用

2024年第6期

浏览历史

内容加载中请稍等...

传统与大模型并举:中文文本分类技术对比研究

参考文献4

二级参考文献10

共引文献38

相关作者

相关机构

相关主题

浏览历史