基于FastText和关键句提取的中文长文本分类被引量：5

Chinese Long Text Classification Based on FastText and Key Sentence Extraction

下载PDF

导出

摘要 FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%. FastText is a precise and efficient text classification model,but the precision is low when it is directly applied to Chinese long text classification.Regarding this problem,this study proposes a FastText method for Chinese long text classification,which combines TextRank key clause extraction with Term Frequency-Inverse Document Frequency(TF-IDF).Firstly,TextRank is used to extract the key clauses of the text as input features.Secondly,key words of the text are extracted by TF-IDF as a feature supplement.Finally,the extracted text features are input into the FastText model,which can preserve the key features of the target text while reducing the training corpus.The experimental results show that the accuracy of the proposed method on the datasets is 86.1%,which is about 4%higher than the classic FastText model.

作者汪家成薛涛 WANG Jia-Cheng;XUE Tao(School of Computer Science,Xi’an Polytechnic University,Xi’an 710048,China)

机构地区西安工程大学计算机科学学院

出处《计算机系统应用》 2021年第8期213-218,共6页 Computer Systems & Applications

基金陕西省2020年技术创新引导专项(基金)(2020CGXNG-012)。

关键词文本分类 FastText TextRank 词频-逆文本频率 text classification FastText TextRank Term Frequency-Inverse Document Frequency(TF-IDF)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：37
2牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：19
3段旭磊,张仰森,孙祎卓.微博文本的句向量表示及相似度计算方法研究[J].计算机工程,2017,34(5):143-148. 被引量：21
4冯勇,屈渤浩,徐红艳,王嵘冰,张永刚.融合TF-IDF和LDA的中文FastText短文本分类方法[J].应用科学学报,2019,37(3):378-388. 被引量：30
5阴爱英,吴运兵,郑一江,余小燕.基于fastText模型的词向量表示改进算法[J].福州大学学报（自然科学版）,2019,47(3):314-319. 被引量：10
6马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学,2019,37(11):38-42. 被引量：23
7杨萌萌,黄浩,程露红,马平,包武杰.基于LDA主题模型的短文本分类[J].计算机工程与设计,2016,37(12):3371-3377. 被引量：19
8叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：104
9李娜娜,刘培玉,刘文锋,刘伟童.基于TextRank的自动摘要优化算法[J].计算机应用研究,2019,36(4):1045-1050. 被引量：17

二级参考文献88

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
5徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
6王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
7李森,马军,赵嫣,雷景生.对数字化科技论文的自动分类研究[J].山东大学学报（理学版）,2006,41(3):14-16. 被引量：5
8徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
9熊忠阳,黎刚,陈小莉,陈伟.文本分类中词语权重计算方法的改进与应用[J].计算机工程与应用,2008,44(5):187-189. 被引量：28
10叶星火,胡珀,张小鹏.基于特征信息提取的中文自动文摘方法[J].计算机应用与软件,2008,25(5):31-32. 被引量：3

共引文献259

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：3
3侯雪亮,李新,陈远平.基于多神经网络混合的短文本分类模型[J].计算机系统应用,2020(10):9-19. 被引量：5
4孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
5贾巨涛,张鹏,唐杰,吴伟,詹培旋.智能语音交互中的语义引导回复技术研究[J].家电科技,2022(S01):608-611. 被引量：1
6黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
7张振豪,过弋,韩美琪,王吉祥.基于关键词相似度的短文本分类方法研究[J].计算机应用研究,2020,37(1):26-29. 被引量：7
8吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
9高云泽,王莉莉,董文睿,冯紫君,胡祖容,赵中楠.基于前后端分离算法的ACM智能管家系统[J].智能计算机与应用,2022,12(3):80-86. 被引量：2
10袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1

同被引文献45

1孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16
2杨丽华,戴齐,杨占华.文本分类技术研究[J].微计算机信息,2006(05X):209-211. 被引量：13
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
4玉素甫.艾白都拉,吾守尔.斯拉木,赛依提.阿不都拉.维语词法分析器研究成功[J].中文信息,1997,14(4):31-35. 被引量：5
5阿布都克力木·阿不力孜,哈里旦木·阿布都克里木,吐尔根·依布拉音,帕里旦·吐尔逊,艾山·吾买尔.基于自顶向下算法的维吾尔语句法分析初探[J].电脑知识与技术,2010(02Z):1182-1183. 被引量：3
6应玉龙,李淼,乌达巴拉,朱海.基于条件随机场的蒙古语词性标注方法[J].计算机应用,2010,30(8):2038-2040. 被引量：9
7朱敬国,吐尔根.依布拉音,张路,任宏宇.基于GLR算法的维吾尔语句法分析研究[J].现代计算机,2011,17(8):19-22. 被引量：3
8吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：26
9帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
10玉素甫.艾白都拉.维语句法分析器中的词义排歧问题的研究[J].计算机应用与软件,2002,19(4):59-62. 被引量：11

引证文献5

1谢波,何凤.基于反馈式文本分类技术自动识别项目标签[J].现代信息科技,2021,5(17):100-102.
2吴玉娟,陈亚军,谢婷.基于TF-IDF和FastText的快速外卖评论情感分类研究[J].太原师范学院学报（自然科学版）,2022,21(2):51-55. 被引量：1
3白子诚,周艳玲,张龑.GM-FastText多通道词向量短文本分类模型[J].计算机系统应用,2022,31(9):403-408. 被引量：1
4龙从军,安波.中国少数民族语言文字信息处理的进展[J].暨南学报（哲学社会科学版）,2022,44(9):12-23. 被引量：7
5贺晓琳.基于文本语义分类的广播电视自动化分类系统设计[J].电视技术,2023,47(1):27-29.

二级引证文献9

1王瑾璟.基于文本挖掘的五星级酒店在线外卖评价研究[J].商展经济,2022(23):60-64. 被引量：1
2杨秀璋,武帅,宋籍文,廖文婧,周既松.一种自适应图像增强和AlexNet的水书古文字识别算法[J].信息技术与信息化,2023(1):212-216. 被引量：2
3段威,回亚茹.数字信息时代少数民族文字私权化现象检视[J].延边大学学报（社会科学版）,2023,56(2):120-128.
4杜巍.旅游行程推荐服务研究综述[J].商业经济,2023(7):147-149.
5方攀,曹宇汀,丁子啸,张顺,李兆融,曾震宇,朱睿.老年疾病康复知识图谱构建与应用探索[J].医学信息学杂志,2023,44(8):42-48.
6刘佳,边俊伊.基于混合深度学习的藏医古籍命名实体识别研究[J].现代情报,2023,43(11):37-46.
7范俊军,沐华.我国低资源语言大规模数据建构及语言田野实践的数据转向[J].云南师范大学学报（哲学社会科学版）,2023,55(6):25-35.
8申影利,赵小兵.语言模型蒸馏的低资源神经机器翻译方法[J].计算机工程与科学,2024,46(4):743-751.
9薛颜波,黄昊,刘亚娟.基于SVG的电子病历编辑器的研发及应用[J].中国数字医学,2024,19(4):28-32.

1杨丽丽.试析课外阅读在小学语文教学中的重要性[J].明日,2021(9):0402-0402.
2王维虎,刘艳超,程芳,纪慎思.基于朴素贝叶斯算法的大学生心理健康分析研究[J].心理学进展,2021,11(7):1723-1731. 被引量：1
3彭娇.探寻美术教学的原点——小学美术教学的实践与思考[J].山海经,2021(27):0289-0289.
4罗玲,李硕凯,何清,杨骋骐,王宇洋恒,陈天宇.基于知识图谱、TF-IDF和BERT模型的冬奥知识问答系统[J].智能系统学报,2021,16(4):819-826. 被引量：7
5陈聪,李茂西,罗琪.译文质量估计中基于Transformer的联合神经网络模型[J].中文信息学报,2021,35(6):47-54. 被引量：2
6丁勇,程家桥,蒋翠清,王钊.基于主题和关键词特征的比较文本分类方法[J].计算机工程与应用,2021,57(17):196-202. 被引量：4
7何登玲.试论土肥技术推广中的问题及对策[J].河北农机,2021(12):63-64.
8张世同.基于BERT与BiLSTM的铁路安监文本分类方法[J].现代计算机,2021,27(22):38-42. 被引量：3
9杨国英,邢前国,赵春晖,孟苗苗,李敬虎.基于无人机RGB光学相机的漂浮绿藻探测研究[J].激光生物学报,2021,30(4):316-324. 被引量：2
10孙芳锦,祝东涵,张大明.风力机叶片流固耦合计算的降阶模型研究[J].振动与冲击,2021,40(15):175-181. 被引量：4

计算机系统应用

2021年第8期

浏览历史

内容加载中请稍等...

基于FastText和关键句提取的中文长文本分类被引量：5

参考文献9

二级参考文献88

共引文献259

同被引文献45

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于FastText和关键句提取的中文长文本分类 被引量：5

参考文献9

二级参考文献88

共引文献259

同被引文献45

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于FastText和关键句提取的中文长文本分类被引量：5