基于BERT-BiLSTM-CRF的网络敏感词及变体实体识别被引量：3

Entity Recognition of Network Sensitive Words and Variants Based on BERT-BiLSTM-CRF

下载PDF

导出

摘要网页内容安全监测是维护互联网安全的一种重要技术手段。针对网络中存在的大量敏感词及其复杂多样的变体难以检测的问题,论文采用一种基于BERT-BiLSTM-CRF的深度学习网络模型进行敏感词及变体的识别。首先通过BERT层对文本序列向量化,其次将向量化的数据表示输入到BiLSTM层中提取敏感词的丰富特征,最后利用CRF层对输出做进一步约束修正,该模型在标注的敏感词及变体实体识别数据集上训练后能较为准确地识别出实体。实验结果表明,该模型在精准率、召回率和F1值上均优于其他模型,识别效果较好。 Web content security monitoring is an important technical approach to maintain Internet security.Aiming at the problem that it is difficult to detect a large number of sensitive words and their complex variants emerging on Web pages in net-works,this paper proposes a deep learning network model based on BERT-BiLSTM-CRF.Firstly,text sequence is vectorized by the Bert layer.Secondly,the vectorized data representation is input into the BiLSTM layer to extract the rich features of sensitive words.Finally,the output is processed by the CRF layer After training on the labeled sensitive words and variant entity recognition data set,the model can recognize the entity more accurately.The experimental results show that the model is better than other mod-els in accuracy,recall and F1 value,and its recognition rate is fairly accepted.

作者郑贤茹李柏岩冯珍妮刘晓强 ZHENG Xianru;LI Baiyan;FENG Zhenni;LIU Xiaoqiang(College of Computer Science and Technology,Donghua University,Shanghai 201620)

机构地区东华大学计算机科学与技术学院

出处《计算机与数字工程》 2023年第7期1585-1589,共5页 Computer & Digital Engineering

基金上海市青年科技英才扬帆计划项目(编号:19YF1402200) 东华大学中央高校基本科研业务费专项资金(编号:2232021D-23)资助。

关键词敏感词变体识别命名实体识别 BERT BiLSTM sensitive words variants recognition named entity recognition BERT BiLSTM

分类号 TN711 [电子电信—电路与系统]

引文网络
相关文献

参考文献10

1姜仁会,王挺,唐晋韬.面向微博文本的命名实体识别[J].计算机与数字工程,2014,42(4):647-651. 被引量：11
2薛朋强,努尔布力,吾守尔.斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447-2452. 被引量：32
3李少卿,吴承荣,曾剑平,钟亦平.不良文本变体关键词识别的词汇串相似度计算[J].计算机应用与软件,2015,32(3):151-157. 被引量：7
4邵清,叶琨.基于编辑距离和相似度改进的汉字字符串匹配[J].电子科技,2016,29(9):7-11. 被引量：17
5余敦辉,张笑笑,付聪,张万山.基于决策树的敏感词变形体识别算法研究及应用[J].计算机应用研究,2020,37(5):1395-1399. 被引量：19
6张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16
7魏笑,秦永彬,陈艳平.一种基于部件CNN的网络安全命名实体识别方法[J].计算机与数字工程,2020,48(1):106-111. 被引量：9
8黄炜,黄建桥,李岳峰.基于BiLSTM-CRF的涉恐信息实体识别模型研究[J].情报杂志,2019,38(12):149-156. 被引量：24
9彭嘉毅,方勇,黄诚,刘亮,姜政伟.基于深度主动学习的信息安全领域命名实体识别研究[J].四川大学学报（自然科学版）,2019,56(3):457-462. 被引量：25
10冯鸾鸾,李军辉,李培峰,朱巧明.面向国防科技领域的技术和术语识别方法研究[J].计算机科学,2019,46(12):231-236. 被引量：13

二级参考文献105

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：46
3乔登科,柳厅文,孙永,郭莉.一种获得有限自动机状态间关系的高效算法[J].计算机研究与发展,2012,49(S2):138-144. 被引量：2
4曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
5车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
6张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：67
7范立新.改进的中文近似字符串匹配算法[J].计算机工程与应用,2006,42(34):172-174. 被引量：8
8孙海霞,成颖.信息集成中的字符串匹配技术研究[J].现代图书情报技术,2007(7):22-26. 被引量：10
9Chen H H, Ding Y W, Tsai S C, et al. Description of the NTU System Used for MET2[C]//Proceedings of the Seventh Message Understanding Conference, 1998.
10Black W J, Rinaldi F, Mowatt D. Facile: Description of the NE System Used For MUC-7[C]//Proceedings of 7th Message Understanding Conference, 1998.

共引文献148

1韩春燕,刘玉娇,琚生根,李若晨,苏翀.中文微博命名体识别[J].四川大学学报（自然科学版）,2015,52(3):511-516. 被引量：9
2刘木强,杨卫东.基于实体的文本数据与XML文档的匹配技术研究[J].小型微型计算机系统,2015,36(11):2473-2478.
3俞浩亮,王秋森,冯旭鹏,刘利军,傅铁威,黄青松.基于特征加权的网络不良内容识别方法[J].现代电子技术,2016,39(3):76-79. 被引量：5
4朱娜娜,景东,薛涵.基于深度神经网络的微博图书名识别研究[J].图书情报工作,2016,60(4):102-106. 被引量：7
5郑秋生,刘守喜.基于CRF的互联网文本命名实体识别研究[J].中原工学院学报,2016,27(1):70-73. 被引量：9
6张鹏威,刘红丽,张澄东,崔书航,俞丽娟.基于内容主体和涉及领域的微博文本特征对信息传播效果的差异分析[J].情报探索,2016(10):5-11. 被引量：3
7桑园.多媒体网络信息提供高质量服务检测仿真[J].计算机仿真,2017,34(10):217-220. 被引量：1
8戴翊飞,徐建良.一种基于过滤技术的字符串模糊匹配方法研究[J].电脑编程技巧与维护,2018(1):40-42. 被引量：2
9薛朋强,鲜英,努尔布力,吾守尔.斯拉木.面向维吾尔文的敏感信息过滤方法研究[J].计算机工程与应用,2018,54(5):236-241. 被引量：6
10藏润强,孙红光,杨凤芹,冯国忠,尹良亮.基于Levenshtein和TFRSF的文本相似度计算方法[J].计算机与现代化,2018(4):84-89. 被引量：6

同被引文献35

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2薛朋强,努尔布力,吾守尔.斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447-2452. 被引量：32
3王晨煜,管明辉,殷传涛,熊璋.基于Felder-Silverman学习风格模型的网络学习风格研究[J].重庆理工大学学报（自然科学）,2017,31(2):102-109. 被引量：17
4买买提阿依甫,吾守尔.斯拉木,帕丽旦.木合塔尔,杨文忠.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(8):230-236. 被引量：23
5张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16
6黄炜,黄建桥,李岳峰.基于BiLSTM-CRF的涉恐信息实体识别模型研究[J].情报杂志,2019,38(12):149-156. 被引量：24
7王大珅,刘晓梅,乔清理.生物医学工程专业科教深度融合的创新人才培养模式与实践[J].医疗卫生装备,2020,41(2):87-90. 被引量：11
8徐建忠,于广浩,苏奎,吕思宁.《医用传感器》课程教学方法研究——以生物医学工程专业为例[J].网络安全技术与应用,2020(7):100-101. 被引量：1
9王静,徐静婷,王庭槐.“线上激越四段式”教学在生物医学信号处理课程中的应用研究[J].医疗卫生装备,2020,41(10):82-86. 被引量：6
10俞敬松,吴聪,曹喜信.政府公文领域细粒度命名实体识别的实用化研究与设计[J].微纳电子与智能制造,2020,2(3):23-29. 被引量：3

引证文献3

1赵小丹,胡林.基于深度学习的农业科技政策知识抽取方法研究[J].数据与计算发展前沿（中英文）,2024,6(4):106-115.
2刘亦凡,代萌,付峰.基于知识图谱的资源推荐系统设计及其在医用传感器课程教学中的应用[J].医疗卫生装备,2024,45(10):93-97. 被引量：1
3何亚楠,游福成.基于BiLSTM-CRF的中文藏头诗敏感词检测算法[J].软件工程与应用,2023,12(6):915-921.

二级引证文献1

1杭莉.基于知识图谱的个性化学习推荐系统设计与应用[J].互联网周刊,2024(24):39-41.

1万国超,李超,吴武清.企业ESG表现会影响股票错误定价吗[J].财经科学,2023(6):32-47. 被引量：6
2姚吉宇,冮龙晖.基于改进的CBS 算法的USV 路径规划[J].中国航海,2023,46(2):1-8.
3张艺,邬敏,王泉,赵晶磊,哈斯亚提.砂岩气藏型储气库水平井动用模式研究及应用[J].中外能源,2023,28(7):60-65. 被引量：1

计算机与数字工程

2023年第7期

浏览历史

内容加载中请稍等...

基于BERT-BiLSTM-CRF的网络敏感词及变体实体识别被引量：3

参考文献10

二级参考文献105

共引文献148

同被引文献35

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于BERT-BiLSTM-CRF的网络敏感词及变体实体识别 被引量：3

参考文献10

二级参考文献105

共引文献148

同被引文献35

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于BERT-BiLSTM-CRF的网络敏感词及变体实体识别被引量：3