-
题名基于BERT的电力领域无监督分词方法
- 1
-
-
作者
陆斯悦
张禄
李香龙
邢其敬
段大鹏
林华
-
机构
国网北京市电力公司电力科学研究院
-
出处
《信息技术》
2024年第1期96-103,共8页
-
基金
国网北京市电力公司科技项目(520223200066)。
-
文摘
目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。
-
关键词
电力文本
中文分词
无监督
BERT
遮蔽语言模型
-
Keywords
power text
Chinese word segmentation
unsupervision
BERT
MLM
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于BERT的子词级中文文本分类方法
被引量:1
- 2
-
-
作者
李思锐
-
机构
成都信息工程大学
-
出处
《计算机科学与应用》
2020年第6期1075-1086,共12页
-
文摘
随着时代的发展,网络中文本数量飞速增长,为了高效地提取和处理,对文本进行分类必不可少。该文以BERT模型为基础,提出了一种子词级的中文文本分类方法。在该方法中,使用子词级遮蔽方法改进原有遮蔽语言模型,使其能有效遮蔽完整中文单词,增加了BERT模型对中文文本的词向量表达能力。同时新加入了中文单词位置嵌入,弥补了BERT模型对中文单词位置信息的缺失。实验结果表明,使用了该文文本分类方法的BERT模型,在多个中文数据集中对比其他模型均拥有最好的分类效果。
-
关键词
BERT模型
子词级
文本分类
遮蔽语言模型
-
Keywords
BERT Model
Subword Level
Text Classification
Masked Language Model
-
分类号
G63
[文化科学—教育学]
-