-
题名一种基于Word2vec的敏感内容识别技术
被引量:8
- 1
-
-
作者
金贵涛
石元兵
魏忠
王雍
刘峻豪
-
机构
卫士通信息产业股份有限公司
-
出处
《通信技术》
2019年第11期2750-2756,共7页
-
基金
“核高基”国家科技重大专项(No.2017ZX01030-201)~~
-
文摘
随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。
-
关键词
敏感词
TextRank算法
Word2vec
文本敏感等级
-
Keywords
sensitive word
TextRank algorithm
Word2vec
text sensitive level
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于依存句法和WRD的句子相似计算方法
- 2
-
-
作者
周俊
石元兵
魏忠
金贵涛
郭红
-
机构
卫士通信息产业股份有限公司
-
出处
《通信技术》
2021年第1期181-187,共7页
-
文摘
句子相似计算技术能够得到两个句子的相似关系,在敏感数据检测领域具有广阔的应用前景。因此,提出了一种融合依存句法和Word Rotator’s Distance语义距离的句子相似计算方法。通过依存句法分析句子结构并提取各种依存关系词集,计算对应依存关系词集间的Word Rotator’s Distance语义距离,并最终得到两个句子的相似指数。实验证明,该方法能够得到比较准确的句子相似计算结果,适用于多种敏感数据检测场景。
-
关键词
句子相似
依存句法
Word
Mover’s
Distance
Word
Rotator’s
Distance
Word2vec
-
Keywords
sentence similarity
dependency parsing
Word Mover’s Distance
Word Rotator’s Distance
Word2vec
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-