-
题名融合概率类别特征增强的短文本分类
- 1
-
-
作者
廖列法
李奎
姚秀
-
机构
江西理工大学信息工程学院
江西现代职业技术学院院长办公室
-
出处
《计算机工程与设计》
北大核心
2024年第7期2074-2081,共8页
-
基金
国家自然科学基金项目(71462018、71761018)。
-
文摘
对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的文本信息输入到改进后的特征提取模块中;将两个模块的输出进行特征融合,完成文本分类。实验结果表明,所提模型在THUCNews数据集上的F1值达到91.91%。FT模块可以与现有分类模型进行融合,提升模型的分类性能。
-
关键词
类别特征增强
短文本
双池化
特征融合
统计算法
快速分类
深度学习
-
Keywords
category feature enhancement
short text
double pooling
feature fusion
statistical algorithms
quick classification
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Markov逻辑网及其在文本分类中的应用
被引量:4
- 2
-
-
作者
张玉芳
黄涛
艾东梅
熊忠阳
-
机构
重庆大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第10期2729-2732,共4页
-
基金
重庆市自然科学基金资助项目(CSTC2008BB2021)
-
文摘
介绍了M arkov逻辑网的理论模型、学习算法和推理算法,并将其应用于中文文本分类中。实验结合了判别式训练的学习算法,MC-SAT、吉布斯抽样和模拟退火等推理算法,结果表明基于M arkov逻辑网的分类方法能够取得比传统K邻近(KNN)分类算法更好的效果。
-
关键词
统计关系学习
机器学习
MARKOV逻辑网
文本分类
-
Keywords
statistical Relational learning (SRL)
machine learning
Markov logic network
text classification
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于支持向量机的中文网页自动分类
被引量:12
- 3
-
-
作者
贾泂
梁久祯
-
机构
浙江师范大学计算机科学研究所
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第10期145-147,共3页
-
文摘
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向量机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。
-
关键词
支持向量机
统计学习
优化
网页
文本分类
-
Keywords
Special problems are discussed in statistic learning theory, support vector machine and their application in classification. Also quadratic program algorithm is described for constructing the SVM classifier. Key words Support vector machine
statistic learning
Optimization
Web page
text classification
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名融合文本分类的多任务学习摘要模型
被引量:3
- 4
-
-
作者
周伟枭
蓝雯飞
-
机构
中南民族大学计算机科学学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第4期48-55,共8页
-
基金
国家自然科学基金(61772562)。
-
文摘
应包含源文本中所有重要信息,传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根据文本分类和文本摘要的相关性,提出一种多任务学习摘要模型。从文本分类辅助任务中学习抽象信息改善摘要生成质量,使用K-means聚类算法构建Cluster-2、Cluster-10和Cluster-20文本分类数据集训练分类器,并研究不同分类数据集参与训练对摘要模型的性能影响,同时利用基于统计分布的判别法全面评价摘要准确性。在CNNDM测试集上的实验结果表明,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上相比强基线模型分别提高了0.23、0.17和0.31个百分点,生成摘要的准确性更高。
-
关键词
编码器-解码器架构
文本摘要
文本分类
多任务学习
聚类算法
统计分布
-
Keywords
encoder-decoder architecture
text summarization
text classification
Multi-Task learning(MTL)
clustering algorithm
statistical distribution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种适用于大规模网页分类的快速算法
- 5
-
-
作者
缪有栋
邱锡鹏
黄萱菁
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第7期260-263,281,共5页
-
文摘
网页分类中存在类别多、训练样本少等问题,一般分类器训练应用效果不佳。为了解决这个问题,提出基于类中心的统计学习方法。在较少人工标注网页的训练集情况下,此方法能取得很好的分类性能并且大幅度加快训练时间,并可以通过加入网页层次目录信息提升推理速度。在第一届LSHTC评测数据集上进行实验,结果表明:基于类中心的统计学习方法拥有较快的训练以及推理速度,并且在正确率上有很强的竞争力。
-
关键词
类中心
文本分类
统计学习
-
Keywords
centroid-based text classification statistic learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的融媒体平台问政文本分类研究
被引量:1
- 6
-
-
作者
孙铁铮
于泽灏
-
机构
吉林财经大学管理科学与信息工程学院
-
出处
《情报探索》
2022年第12期1-7,共7页
-
基金
吉林省教育厅社会科学研究规划项目“基于深度学习的融媒体平台问政文本分类匹配研究”(项目编号:JJKH20220162SK)成果之一。
-
文摘
[目的/意义]旨在探究当前网络问政所包含的社会基层实际问题,验证深度学习算法应用于网络问政领域的可行性,实现公众政务留言分类识别处理,以期对政府提升基层政务事件处理效率,完善政务留言互动体系提供有效参考。[方法/过程]以人民网领导留言板问政平台为依据,爬取公众留言文本作为实验数据,进行词频统计与可视化分析。基于Word2Vec模型构建文本词向量表示,构建CNN、RCNN、FastText及Transformer四类深度学习模型实现公众留言自动分类识别,构建评价指标体系对其实验表现进行对比分析。[结果/结论]词频统计可反映当前网络问政环境中所聚焦的热点问题,如“小区管理”“学区划分”“交通拥堵”等,对相关部门政务工作的开展具有积极指导意义。四类算法对问政文本的识别准确率均在80%以上,表明深度学习算法对问政文本具有较为理想的适用性,可作为构建智能留言互动系统的实际应用方法。其中,CNN算法在基于宏平均的类测评指标与基于微平均的样本测评指标上均达到最佳表现,表明卷积特征抽取在处理该类短文本特征分类时具有一定的优越性。
-
关键词
网络问政
词频统计
文本分类
深度学习
-
Keywords
internet policy
word frequency statistics
text classification
deep learning
-
分类号
G354
[文化科学—情报学]
-