期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
Gate-Attention and Dual-End Enhancement Mechanism for Multi-Label Text Classification
1
作者 Jieren Cheng Xiaolong Chen +3 位作者 Wenghang Xu Shuai Hua Zhu Tang Victor S.Sheng 《Computers, Materials & Continua》 SCIE EI 2023年第11期1779-1793,共15页
In the realm of Multi-Label Text Classification(MLTC),the dual challenges of extracting rich semantic features from text and discerning inter-label relationships have spurred innovative approaches.Many studies in sema... In the realm of Multi-Label Text Classification(MLTC),the dual challenges of extracting rich semantic features from text and discerning inter-label relationships have spurred innovative approaches.Many studies in semantic feature extraction have turned to external knowledge to augment the model’s grasp of textual content,often overlooking intrinsic textual cues such as label statistical features.In contrast,these endogenous insights naturally align with the classification task.In our paper,to complement this focus on intrinsic knowledge,we introduce a novel Gate-Attention mechanism.This mechanism adeptly integrates statistical features from the text itself into the semantic fabric,enhancing the model’s capacity to understand and represent the data.Additionally,to address the intricate task of mining label correlations,we propose a Dual-end enhancement mechanism.This mechanism effectively mitigates the challenges of information loss and erroneous transmission inherent in traditional long short term memory propagation.We conducted an extensive battery of experiments on the AAPD and RCV1-2 datasets.These experiments serve the dual purpose of confirming the efficacy of both the Gate-Attention mechanism and the Dual-end enhancement mechanism.Our final model unequivocally outperforms the baseline model,attesting to its robustness.These findings emphatically underscore the imperativeness of taking into account not just external knowledge but also the inherent intricacies of textual data when crafting potent MLTC models. 展开更多
关键词 multi-label text classification feature extraction label distribution information sequence generation
下载PDF
基于《中国图书馆分类法》的文献自动化深层分类的研究和实现 被引量:1
2
作者 张雨卉 《图书馆杂志》 北大核心 2024年第3期61-74,共14页
基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基... 基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。 展开更多
关键词 极限多标签文本分类 层次文本分类 深度学习 《中国图书馆分类法》
下载PDF
采用平衡函数的大规模多标签文本分类 被引量:1
3
作者 陈钊鸿 洪智勇 +1 位作者 余文华 张昕 《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页
大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方... 大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 展开更多
关键词 自然语言处理 大规模多标签文本分类 BERT 平衡函数 深度学习
下载PDF
面向法院电子卷宗的文本分类方法研究
4
作者 王霄 万玉晴 《计算机应用与软件》 北大核心 2024年第6期101-107,133,共8页
针对法院电子卷宗文本分类的主要问题,给出相应解决方案。提出卷宗文件的多维度语义表示方法,得到更准确全面的文本特征信息;使用基于高斯核的KELM(Kernel Extreme Learning Machine)学习文本分类器,获取全局最优解的同时大幅提高训练效... 针对法院电子卷宗文本分类的主要问题,给出相应解决方案。提出卷宗文件的多维度语义表示方法,得到更准确全面的文本特征信息;使用基于高斯核的KELM(Kernel Extreme Learning Machine)学习文本分类器,获取全局最优解的同时大幅提高训练效率;使用基于RLS(Recursive Least Squares)的序列优化模型KOS-ELM,通过新样本对模型参数迭代更新,使分类模型具备在线自学习的能力,减少了对初始样本的依赖。对比实验证明,基于高斯核的KELM分类模型在正确率上比BP网络模型和LSSVM分别提高了2.66百分点和4.43百分点,但训练时间只有两者的1/6和1/10;采用多维度语义表示方法为模型提供输入,在正确率上比文本向量和词向量表示方法分别提高了8.84百分点和2.33百分点;采用基于RLS的序列优化模型KOS-ELM对弱分类器进行迭代优化,以4种不同步长迭代20次后,分类正确率均得到显著提升。 展开更多
关键词 法院电子卷宗 文本分类 语义表示 核极限学习机 递归最小二乘
下载PDF
Multi-label text classification model based on semantic embedding 被引量:2
5
作者 Yan Danfeng Ke Nan +2 位作者 Gu Chao Cui Jianfei Ding Yiqi 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2019年第1期95-104,共10页
Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-... Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-label classification can handle text data more comprehensively. Multi-label text classification become the key problem in the data mining. To improve the performances of multi-label text classification, semantic analysis is embedded into the classification model to complete label correlation analysis, and the structure, objective function and optimization strategy of this model is designed. Then, the convolution neural network(CNN) model based on semantic embedding is introduced. In the end, Zhihu dataset is used for evaluation. The result shows that this model outperforms the related work in terms of recall and area under curve(AUC) metrics. 展开更多
关键词 multi-label text classification CONVOLUTION NEURAL network SEMANTIC analysis
原文传递
Multi-Label Chinese Comments Categorization: Comparison of Multi-Label Learning Algorithms 被引量:4
6
作者 Jiahui He Chaozhi Wang +2 位作者 Hongyu Wu Leiming Yan Christian Lu 《Journal of New Media》 2019年第2期51-61,共11页
Multi-label text categorization refers to the problem of categorizing text througha multi-label learning algorithm. Text classification for Asian languages such as Chinese isdifferent from work for other languages suc... Multi-label text categorization refers to the problem of categorizing text througha multi-label learning algorithm. Text classification for Asian languages such as Chinese isdifferent from work for other languages such as English which use spaces to separate words.Before classifying text, it is necessary to perform a word segmentation operation to converta continuous language into a list of separate words and then convert it into a vector of acertain dimension. Generally, multi-label learning algorithms can be divided into twocategories, problem transformation methods and adapted algorithms. This work will usecustomer's comments about some hotels as a training data set, which contains labels for allaspects of the hotel evaluation, aiming to analyze and compare the performance of variousmulti-label learning algorithms on Chinese text classification. The experiment involves threebasic methods of problem transformation methods: Support Vector Machine, Random Forest,k-Nearest-Neighbor;and one adapted algorithm of Convolutional Neural Network. Theexperimental results show that the Support Vector Machine has better performance. 展开更多
关键词 multi-label classification Chinese text classification problem transformation adapted algorithms
下载PDF
Text GCN-SW-KNN:a novel collaborative training multi-label classification method for WMS application themes by considering geographic semantics 被引量:1
7
作者 Zhengyang Wei Zhipeng Gui +5 位作者 Min Zhang Zelong Yang Yuao Mei Huayi Wu Hongbo Liu Jing Yu 《Big Earth Data》 EI 2021年第1期66-89,共24页
Without explicit description of map application themes,it is difficult for users to discover desired map resources from massive online Web Map Services(WMS).However,metadata-based map application theme extraction is a... Without explicit description of map application themes,it is difficult for users to discover desired map resources from massive online Web Map Services(WMS).However,metadata-based map application theme extraction is a challenging multi-label text classification task due to limited training samples,mixed vocabularies,variable length and content arbitrariness of text fields.In this paper,we propose a novel multi-label text classification method,Text GCN-SW-KNN,based on geographic semantics and collaborative training to improve classifica-tion accuracy.The semi-supervised collaborative training adopts two base models,i.e.a modified Text Graph Convolutional Network(Text GCN)by utilizing Semantic Web,named Text GCN-SW,and widely-used Multi-Label K-Nearest Neighbor(ML-KNN).Text GCN-SW is improved from Text GCN by adjusting the adjacency matrix of the heterogeneous word document graph with the shortest semantic distances between themes and words in metadata text.The distances are calculated with the Semantic Web of Earth and Environmental Terminology(SWEET)and WordNet dictionaries.Experiments on both the WMS and layer metadata show that the proposed methods can achieve higher F1-score and accuracy than state-of-the-art baselines,and demonstrate better stability in repeating experiments and robustness to less training data.Text GCN-SW-KNN can be extended to other multi-label text classification scenario for better supporting metadata enhancement and geospatial resource discovery in Earth Science domain. 展开更多
关键词 Web map service multi-label text classification semantic distance text graph convolutional network collaborative training MLKNN application theme extraction
原文传递
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型 被引量:2
8
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
下载PDF
用于文本情感极性分析的动态卷积神经网络超限学习算法 被引量:7
9
作者 贾熹滨 李宁 靳亚 《北京工业大学学报》 CAS CSCD 北大核心 2017年第1期28-35,共8页
为改善动态卷积神经网络在文本情感分类方法中的泛化能力,提出了一种动态卷积超限学习算法.对动态卷积神经网络的输出层加以改进,使用浅层随机神经网络替代全连接层,利用参数随机生成的扰动性能,降低分类端对训练样本的依赖,避免过拟合... 为改善动态卷积神经网络在文本情感分类方法中的泛化能力,提出了一种动态卷积超限学习算法.对动态卷积神经网络的输出层加以改进,使用浅层随机神经网络替代全连接层,利用参数随机生成的扰动性能,降低分类端对训练样本的依赖,避免过拟合,提升分类性能.在公共数据集上的实验证明:相对改进前的动态卷积学习算法以及超限学习机,所提出的方法在准确率、F1测度等多个标准指标上均体现了更优的分类性能. 展开更多
关键词 文本情感分类 动态卷积 超限学习机 动态卷积超限学习算法
下载PDF
基于DE-ELM的林业信息文本分类算法 被引量:5
10
作者 陈宇 王明月 许莉薇 《计算机工程与设计》 北大核心 2015年第9期2412-2415,2431,共5页
为解决传统林业信息文本分类算法准确率低和正确率分布不均匀的问题,提出基于差分演化优化极端学习机的林业信息文本分类算法。使用TF-IDF方法计算林业信息文本特征值,对构造的林业信息文本特征矩阵降维,结合差分演化算法对极端学习机... 为解决传统林业信息文本分类算法准确率低和正确率分布不均匀的问题,提出基于差分演化优化极端学习机的林业信息文本分类算法。使用TF-IDF方法计算林业信息文本特征值,对构造的林业信息文本特征矩阵降维,结合差分演化算法对极端学习机算法进行优化,构造分类器进行精准快速的分类。实验结果表明,该算法能有效克服极端学习算法的缺点,具有较好的局部与全局收敛能力,相较BP、SVM算法,该算法有一定竞争力,为林业信息文本的分类研究提供了参考。 展开更多
关键词 文本分类 差分演化优化极端学习机 极端学习机 TF-IDF 分类器
下载PDF
基于多隐层极限学习机的文本分类方法 被引量:4
11
作者 冀俊忠 庞皓明 +1 位作者 杨翠翠 刘金铎 《北京工业大学学报》 CAS CSCD 北大核心 2019年第6期534-545,共12页
针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取... 针对正则化极限学习机处理高维文本数据时文本特征表示能力不足的问题,提出了一种基于多隐层极限学习机的文本分类方法.首先,使用极限学习机自编码器的压缩表示对高维文本数据进行降维处理.然后,通过多隐层极限学习机的多隐层结构提取出高层文本特征并通过最小二乘的方法对文本数据进行分类.与多个算法的实验对比表明,该算法在20newsgroup、Reuters和复旦大学中文语料库这3个数据集上都具有良好的分类性能. 展开更多
关键词 文本分类 高维文本 多隐层极限学习机 极限学习机自编码器 特征映射 神经网络
下载PDF
基于快速自编码的RELM的文本分类 被引量:3
12
作者 周杭霞 叶佳骏 任欢 《计算机工程与科学》 CSCD 北大核心 2016年第5期871-876,共6页
正则化极限学习机RELM是一种单隐层前馈神经网络,不同于传统神经网络算法,RELM通过随机设置输入层权重和偏置值,可以快速求得输出层权重,并且引入正则化因子,能够提高模型的泛化能力。针对文本信息高维度、多类别的问题,提出一种基于快... 正则化极限学习机RELM是一种单隐层前馈神经网络,不同于传统神经网络算法,RELM通过随机设置输入层权重和偏置值,可以快速求得输出层权重,并且引入正则化因子,能够提高模型的泛化能力。针对文本信息高维度、多类别的问题,提出一种基于快速自编码的正则化极限学习机FARELM。将由RELM改进后的快速自编码神经网络对样本进行无监督特征学习,并对特征提取后的数据使用RELM进行分类。实验表明,FA-RELM的学习速度和分类精度较优。 展开更多
关键词 文本分类 特征提取 自动编码器 正则化极限学习机
下载PDF
基于极限学习机的自动化图书信息分类技术 被引量:2
13
作者 潘辉 《现代电子技术》 北大核心 2019年第17期183-186,共4页
针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通... 针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。 展开更多
关键词 图书分类 机器学习 极限学习机 文本表示 TF-IDF 特征选择 图书语料测试
下载PDF
基于核超限学习机的中文文本情感分类 被引量:2
14
作者 于海燕 陈丽如 郑文斌 《中国计量学院学报》 2016年第2期228-233,共6页
针对传统情感分类算法存在的参数学习困难及分类性能较低等问题,提出了一种基于核超限学习机的中文文本情感分类方法.首先通过信息增益对训练数据进行特征选择以降低输入维数,然后通过构建基于小波核超限学习机的分类器实现对中文文本... 针对传统情感分类算法存在的参数学习困难及分类性能较低等问题,提出了一种基于核超限学习机的中文文本情感分类方法.首先通过信息增益对训练数据进行特征选择以降低输入维数,然后通过构建基于小波核超限学习机的分类器实现对中文文本的情感分类.实验结果表明,新方法参数学习容易,且其文本情感分类性能通常优于支持向量机和朴素贝叶斯. 展开更多
关键词 核超限学习机 情感分类 中文文本
下载PDF
基于流形正则化极限学习机的文本分类算法研究 被引量:5
15
作者 庞皓明 冀俊忠 +1 位作者 刘金铎 姚垚 《计算机工程》 CAS CSCD 北大核心 2019年第6期242-248,共7页
基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特... 基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特征映射保持输入文本特征的几何结构。基于样本的类别信息对样本点之间的距离进行修正,优先选择类别相同的样本点,以改善分类性能。在Reuters和20newsgroup数据集上的实验结果表明,与正则化极限学习机算法、AdaBELM算法等相比,该算法分类性能较好,F1-measure值可达91.42%。 展开更多
关键词 文本分类 监督学习 正则化极限学习机 流形正则化 特征映射
下载PDF
基于贝叶斯决策的极短文本分类模型 被引量:2
16
作者 张德成 王杨 +2 位作者 赵传信 甄磊 李昌 《重庆科技学院学报(自然科学版)》 CAS 2018年第4期82-85,共4页
为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝... 为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝叶斯决策对极短文本进行分类。通过(1-0)检验,验证模型的有效性。以一批极短文本数据作为样本进行实验,结果显示出该方法能够有效提高匹配效率,误分度与精确度指标的匹配结果更加均衡。 展开更多
关键词 Jieba分词 Kettle工具 极短文本分类 贝叶斯分类
下载PDF
基于极限学习机的中文文本分类方法 被引量:5
17
作者 程东生 范广璐 +2 位作者 俞雯静 伍飞 曾伟波 《重庆理工大学学报(自然科学)》 CAS 北大核心 2018年第8期156-164,205,共10页
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经... 针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。 展开更多
关键词 中文文本分类 极限学习机 特征融合 单隐层神经网络 电网档案管理系统
下载PDF
层级标签语义引导的极限多标签文本分类策略 被引量:1
18
作者 王嫄 徐涛 +2 位作者 王世龙 周宇博 史艳翠 《中文信息学报》 CSCD 北大核心 2021年第10期110-118,共9页
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练... 极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。 展开更多
关键词 极限多标签文本分类 层级标签 弱监督语义指导
下载PDF
基于XGBoost和文本聚焦模型的招标文件自动分类 被引量:3
19
作者 闫吉庆 沈志远 +1 位作者 吕靖 刘金硕 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2022年第3期310-318,共9页
针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法。聚焦表示部分通过提取对分类结果有显著影响的关键字段部分,使用N-G... 针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法。聚焦表示部分通过提取对分类结果有显著影响的关键字段部分,使用N-Gram分词,结合词性级词频-逆文档频率(term frequency–inverse document frequency,TF-IDF)的方法,实现招标文件文本特征向量表示;基于XGBoost的招标文件分类预测模型部分将提取到的特征送入XGBoost模型,实现了将招标文件按照行业分类和按照项目类型分类。结果表明:聚焦表示模型与计数向量和TF-IDF文本表示模型相比,其特征提取的效果更好;同时,通过人工标注语料的验证表明,8种行业分类准确率高达95.3%,按照项目类型的分类准确率达到96.6%左右。与其他分类算法比较,XGBoost分类算法表现更优。 展开更多
关键词 文本分类 文本表示 XGBoost 聚焦模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部