基于BERT的电力领域无监督分词方法

Unsupervised word segmentation method in power domain based on BERT

下载PDF

导出

摘要目前,已有一些分词工具实现了通用领域分词,而在电力领域中进行分词面临相关文本少,缺乏已标注数据且人工标注工作成本高等问题。为了克服这些困难,提出了一种基于BERT特征编码的无监督分词工具,采用遮蔽语言模型(MLM),基于BERT计算部分被遮蔽的句子的特征编码来度量句子各部分相似度,并将相似度较低的部分进行拆分,再通过N-Gram对于拆分结果进行重新组合,实现电力领域的无监督分词。实验结果表明,文中方法在通用领域优于现有分词工具,尤其在电力领域的分词任务中取得了较好的效果。 At present,some word segmentation tools have realized the word segmentation in general domain,however,problems such as few related texts,missing labeled data,and high cost of manual labeling are existed in power domain.To overcome these difficulties,this paper puts forward an unsupervised word segmentation tool based on BERT.Masked Language Model(MLM) is adopted.Besides,on the basis of the feature codes of sentences partially masked by BERT's calculation,the similarity of each part of the sentence are measured,and the parts with low similarity would be split up.Then N-Gram combines the results which are over-segmentation to realize the unsupervised word segmentation in power domain.The experiment results show that the proposed method is superior to the existing word segmentation tools in general fields,especially in power domain.

作者陆斯悦张禄李香龙邢其敬段大鹏林华 LU Si-yue;ZHANG Lu;LI Xiang-long;XING Qi-jing;DUAN Da-peng;LIN Hua(State Grid Beijing Electric Power Research Institute,Beijing 100075,China)

机构地区国网北京市电力公司电力科学研究院

出处《信息技术》 2024年第1期96-103,共8页 Information Technology

基金国网北京市电力公司科技项目(520223200066)。

关键词电力文本中文分词无监督 BERT 遮蔽语言模型 power text Chinese word segmentation unsupervision BERT MLM

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
2邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
3张文静,张惠蒙,杨麟儿,荀恩东.基于Lattice-LSTM的多粒度中文分词[J].中文信息学报,2019,33(1):18-24. 被引量：17
4赵东玥,杜永萍,石崇德.基于BLSTM的科技文献术语抽取方法[J].情报工程,2018,4(1):67-74. 被引量：9
5徐豪杰,吴新丽,杨文珍,潘志庚.基于改进PMI和最小邻接熵结合策略的未登录词识别[J].计算机系统应用,2020,29(6):181-188. 被引量：4
6张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
7李月伦,常宝宝.基于最大间隔马尔可夫网模型的汉语分词方法[J].中文信息学报,2010,24(1):8-14. 被引量：8

二级参考文献44

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
4骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
5李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
6何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
8罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
9N. Xue. Chinese Word Segmentation as Character Tagging[J]. Computational Linguistics and Chinese Language Processing, 2003, 8(1), 29-48.
10Ben Taskar, Carlos Guestrin, Daphne Koller. Max- Margin Markov Networks[C]//Proceedings of Neural Information Processing Systems Conference ( NIPS), 2003.

共引文献203

1胡庆玲,林栋,陈楷闻,吴新丽,梁宏博,杨文珍.基于国家通用盲文标调规则的汉盲转换系统[J].计算机系统应用,2022,31(12):59-68. 被引量：2
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
10钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.

1色差甲,桑杰端珠,才让加,慈祯嘉措.一种基于预训练模型的藏文分词方法[J].中文信息学报,2023,37(12):70-75.
2魏忠,乐玥.基于LDA模型的在线评价物流主题挖掘及可视化分析[J].物流技术,2023,42(12):77-83.
3都立立,邢传玺,万志良,李聪颖.基于CKF-SLAM改进的无人水下航行器动态目标跟踪算法研究[J].云南民族大学学报（自然科学版）,2024,33(1):102-110. 被引量：1
4赵鹏.基于X87指令集的浮点除法运算单元设计[J].微型电脑应用,2024,40(1):65-68.

信息技术

2024年第1期

浏览历史

内容加载中请稍等...

基于BERT的电力领域无监督分词方法

参考文献7

二级参考文献44

共引文献203

相关作者

相关机构

相关主题

浏览历史