期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于BERT的电力领域无监督分词方法
1
作者 陆斯悦 张禄 +3 位作者 李香龙 邢其敬 段大鹏 林华 《信息技术》 2024年第1期96-103,共8页
目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部... 目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。 展开更多
关键词 电力文本 中文分词 无监督 BERT 遮蔽语言模型
下载PDF
基于BERT的子词级中文文本分类方法 被引量:1
2
作者 李思锐 《计算机科学与应用》 2020年第6期1075-1086,共12页
随着时代的发展,网络中文本数量飞速增长,为了高效地提取和处理,对文本进行分类必不可少。该文以BERT模型为基础,提出了一种子词级的中文文本分类方法。在该方法中,使用子词级遮蔽方法改进原有遮蔽语言模型,使其能有效遮蔽完整中文单词... 随着时代的发展,网络中文本数量飞速增长,为了高效地提取和处理,对文本进行分类必不可少。该文以BERT模型为基础,提出了一种子词级的中文文本分类方法。在该方法中,使用子词级遮蔽方法改进原有遮蔽语言模型,使其能有效遮蔽完整中文单词,增加了BERT模型对中文文本的词向量表达能力。同时新加入了中文单词位置嵌入,弥补了BERT模型对中文单词位置信息的缺失。实验结果表明,使用了该文文本分类方法的BERT模型,在多个中文数据集中对比其他模型均拥有最好的分类效果。 展开更多
关键词 BERT模型 子词级 文本分类 遮蔽语言模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部