-
题名结合ALBERT和双向门控循环单元的专利文本分类
- 1
-
-
作者
温超东
曾诚
任俊伟
张䶮
-
机构
湖北大学计算机与信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2021年第2期407-412,共6页
-
基金
国家自然科学基金面上项目(61977021)
国家自然科学基金青年科学基金资助项目(61902114)
2019年湖北省技术创新专项(2019ACA144)。
-
文摘
随着专利申请数量的快速增长,对专利文本实现自动分类的需求与日俱增。现有的专利文本分类算法大都采用Word2vec和全局词向量(GloVe)等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。针对上述问题,提出了一种结合ALBERT和双向门控循环单元(BiGRU)的多层级专利文本分类模型ALBERT-BiGRU。该模型使用ALBERT预训练的动态词向量代替传统Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,最大限度保留了专利文本中长距离词之间的语义关联。在国家信息中心公布的专利数据集上进行有效性验证,与Word2vec-BiGRU和GloVe-BiGRU相比,ALBERT-BiGRU的准确率在专利文本的部级别分别提高了9.1个百分点和10.9个百分点,在大类级别分别提高了9.5个百分点和11.2个百分点。实验结果表明,ALBERT-BiGRU能有效提升不同层级专利文本的分类效果。
-
关键词
专利文本
文本分类
ALBERT
双向门控循环单元
词向量
-
Keywords
patent text
text classification
A Lite BERT(ALBERT)
Bidirectional Gated Recurrent Unit(BiGRU)
word vector
-
分类号
TP183
[自动化与计算机技术]
TP391.1
[自动化与计算机技术—控制理论与控制工程]
-