-
题名增强领域特征的电力审计文本分类方法
被引量:3
- 1
-
-
作者
陈平
匡尧
胡景懿
王向阳
蔡静
-
机构
武汉电力职业技术学院建设及管理系
国网湖北省电力有限公司审计部
-
出处
《计算机应用》
CSCD
北大核心
2020年第S01期109-112,共4页
-
基金
国网湖北省电力有限公司科学技术项目(SGHBJP00JGJS1900026)。
-
文摘
针对电力审计领域的文本具有行业特征明显、文本特征相似度高、分类边界模糊的特性,提出了增强领域特征的电力审计文本分类方法。首先构建面向电力审计的专业词典,提出EF-Doc2VecC模型再联合专业词典增强文本的特征,最后送入BiLSTM分类器实现专业领域的文本分类。实验结果表明,针对专业性显著的电力审计类文本分类,EF-Doc2Vec模型,在召回率、特异性、准确率和F1值分类指标上比对照模型Doc2VecC分别高出4,2,2,2个百分点;针对通用领域文本分类,EF-Doc2VecC模型在召回率、差异性、准确率和F1值分类指标上比对照模型Doc2VecC高出3,3,4,4个百分点。另外,EF-Doc2VecC模型在电力审计类的文本分类性能分别比通用领域高出4,5,3,3个百分点。因此,提出的文本向量表示方法及文本分类方法,不仅能提升通用领域的文本分类性能,还能显著提升垂直领域的文本细粒度分类性能。
-
关键词
电力审计
文本分类
增强特征
Doc2VecC
双向长短期记忆模型
-
Keywords
power audit
text categorization
enhanced feature
Doc2VecC
Bidirectional Long Short-Term Memory(BiLSTM)model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-