结合触发事件及词性分析的敏感信息识别方法被引量：6

Sensitive Information Recognition Method Combining Trigger Event and Part of Speech Analysis

下载PDF

导出

摘要针对传统敏感信息识别方法忽略了上下文语境和关键词词性而导致的漏报、误报问题,提出一种改进文本敏感信息识别的方法STEAP。构建暴恐敏感词典;通过敏感触发事件的抽取构建敏感触发事件序列,结合敏感触发事件及关键词的词性为待识别的信息分配权重;将构建的触发事件与词向量、暴恐敏感词典进行相似度的计算,结合权重获得文本的敏感度。实验结果证明,与传统敏感信息识别方法相比,STEAP方法能够有效识别出文本中的敏感信息,并且在精确度上得到了一定提高。 Aiming at the problem of false negatives and false positives caused by the context of contextual context and keyword part-of-speech,this paper proposes a method(STEAP)to improve the recognition of text-sensitive information.It constructs a terrorism sensitive dictionary.Through sensitive triggering,the extraction of events constructs a sequence of sensitive trigger events,and combines the sensitive trigger events and the part of speech of the keywords to assign weights to the information to be identified.It calculates the similarity of the constructed trigger event with the word vector and the terrorism sensitive dictionary,and combines the weights to obtain the sensitivity of the text.Experimental results show that compared with the traditional sensitive information recognition method,the STEAP method can effectively identify the sensitive information in the text,and the accuracy is improved.

作者刘聪王永利周子韬犹锋张才俊 LIU Cong;WANG Yongli;ZHOU Zitao;YOU Feng;ZHANG Caijun(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China;Nari Group Corporation/State Grid Electric Power Research Institute Co.,Ltd.,Jiangsu Ruizhong Data Co.,Ltd.,Nanjing 210094,China;Grid Customer Service Center,Nanjing 210094,China)

机构地区南京理工大学计算机科学与工程学院南瑞集团有限公司/国网电力科学研究院有限公司国家电网有限公司客户服务中心

出处《计算机工程与应用》 CSCD 北大核心 2020年第20期132-137,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.61170035,No.61272420,No.81674099,No.61502233) 中央高校基本科研业务费专项资金项目(No.30916011328,No.30918015103) 南京市科技计划项目(No.201805036) “十三五”装备领域基金(No.61403120501) 中国工程院2019年度咨询研究项目(No.2019-ZD-1-02-02)。

关键词敏感触发事件词性序列敏感信息识别文本相似度 sensitive trigger events part of speech sequence sensitive information recognition text similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张佳明,席耀一,王波,唐浩浩,李天彩.基于词向量的微博事件追踪方法[J].计算机工程与应用,2016,52(17):73-78. 被引量：11
2郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
3张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：60
4胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：6

二级参考文献37

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
3宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：42
4严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
5YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
6GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.
7The Lancaster corpus of mandarin Chinese (LCMC) [ EB/OL]. http ://www. ling. lancs. ac. uk/corplang/lcmc/.
8周荫清，信息理论基础M，1993年
9董振东董强.知网[EB／OL].http://www.keenage.com,1999—09—23/2004—03—06.
10刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.

共引文献170

1李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
3周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
4于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
5易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
6颜端武,成晓,甘利人.基于领域本体和概念向量的中文文本相似性测度研究[J].中国图书馆学报,2007,33(6):51-57. 被引量：5
7徐旭,平西建,张涛,王国新.基于汉明距离统计的隐写分析算法[J].信息工程大学学报,2008,9(1):27-30. 被引量：2
8郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6):857-862. 被引量：7
9游福成.一种基于反馈机制的Web文本挖掘分类算法[J].北京印刷学院学报,2009,17(2):52-54.
10潘国清.一种向量空间模型中对特征项的改进方法及应用[J].湖南工程学院学报（自然科学版）,2009,19(2):38-41. 被引量：2

同被引文献75

1杜智涛,谢新洲.利用灰色预测与模式识别方法构建网络舆情预测与预警模型[J].图书情报工作,2013,57(15):27-33. 被引量：54
2邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：32
3李扬,潘泉,杨涛.基于短文本情感分析的敏感信息识别[J].西安交通大学学报,2016,50(9):80-84. 被引量：20
4薛朋强,努尔布力,吾守尔.斯拉木.基于网络文本信息的敏感信息过滤算法[J].计算机工程与设计,2016,37(9):2447-2452. 被引量：32
5李超,柴玉梅,南晓斐,高明磊.基于深度学习的问题分类方法研究[J].计算机科学,2016,43(12):115-119. 被引量：25
6裴雷,孙建军,周兆韬.政策文本计算:一种新的政策文本解读方式[J].图书与情报,2016(6):47-55. 被引量：85
7孟玺,周西平,吴绍忠.语义分析在反恐研究领域的应用研究[J].情报杂志,2017,36(3):13-17. 被引量：5
8邢长征,赵全颖,王伟,王星.基于优化密度的耦合空间LDA文本聚类算法研究[J].计算机应用研究,2017,34(7):1966-1970. 被引量：7
9李纲,巴志超.共词分析过程中的若干问题研究[J].中国图书馆学报,2017,43(4):93-113. 被引量：105
10陈欣.移动互联时代如何应对军事新闻传播的失泄密问题[J].中国广播,2017(8):18-22. 被引量：2

引证文献6

1宋振,徐雅斌.社交网络中意见领袖的敏感舆论倾向识别[J].计算机工程与设计,2021,42(11):3293-3300. 被引量：1
2李瀛,王冠楠.网络新闻敏感信息识别与风险分级方法研究[J].情报理论与实践,2022,45(4):105-112. 被引量：10
3吴树芳,杨强,侯晓舟,尹萌.基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究[J].情报杂志,2023,42(11):119-125. 被引量：2
4吴树芳,尹凯.基于敏感语义和复合共现的网络敏感词典构建研究[J].情报科学,2023,41(10):12-20. 被引量：2
5叶雪洁,杨阳朝,李阳阳,周阳.大数据背景下的电子邮件系统发展研究[J].数字通信世界,2024(4):40-42.
6吴树芳,尹凯,吴汭漩,朱杰.融入隐式情感和主题增强分布的网络敏感信息深度识别研究[J].情报科学,2024,42(5):111-119.

二级引证文献12

1周小红.基于微分方程的随机网络舆论传播模型研究与分析[J].贵州大学学报（自然科学版）,2022,39(3):27-32.
2邓家美.新闻敏感在新闻实践中的重要作用[J].环球首映,2022(7):157-159.
3李瀛,杨芮.我国政府数据开放的隐私保护困境及管理框架研究[J].情报杂志,2023,42(1):152-157. 被引量：15
4胡庭恺,陈祖琴,葛继科,陈超,董焱.开放领域新闻中基于自适应决策边界的突发事件识别和分类研究[J].情报理论与实践,2023,46(2):194-200. 被引量：2
5邹凯,王驰名.敏感个人信息分级方法应用与仿真分析[J].图书情报导刊,2022,7(11):30-37.
6吴树芳,杨强,侯晓舟,尹萌.基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究[J].情报杂志,2023,42(11):119-125. 被引量：2
7吴树芳,尹凯.基于敏感语义和复合共现的网络敏感词典构建研究[J].情报科学,2023,41(10):12-20. 被引量：2
8管荣齐,王晶晶.生成式人工智能的专利法律问题思考[J].南京邮电大学学报（社会科学版）,2024,26(2):37-46. 被引量：1
9吴树芳,杨强,朱杰.融合权重惩罚BiGRU模型的网络敏感信息发现及实证研究[J].图书情报工作,2024,68(13):144-153.
10张凯亮,臧国全,肖洋.医疗信息文本中的个人隐私数据识别与计量研究[J].情报学报,2024,43(8):936-945.

1刘云.基于词性分析地理微课程教学用语优化策略[J].中学地理教学参考,2020(8):34-36. 被引量：2
2张霞.浅谈小学数学阅读能力的培养[J].人民教育,2020(18):79-79. 被引量：8
3余本功,张培行.基于双通道特征融合的WPOS-GRU专利分类方法[J].计算机应用研究,2020,37(3):655-658. 被引量：10
4张亚飞,左一溪,余正涛,郭军军,高盛祥.基于词性软模板注意力机制的短文本自动摘要方法[J].模式识别与人工智能,2020,33(6):551-558. 被引量：3
5韩程程,李磊,刘婷婷,高明.语义文本相似度计算方法[J].华东师范大学学报（自然科学版）,2020(5):95-112. 被引量：31
6商世民,莫国雄.视觉人类学中视觉构词法视野下的视觉符号体现[J].艺术大观,2019,0(20):0116-0116.
7钟敏,汪洋.基于计量风格学的多层次特征在作者识别应用研究[J].计算机与数字工程,2020,48(5):1159-1163.
8马士基自7月1日起实行500美元的货物误报费[J].海运情报,2020(8):13-13.
9王威.基于功能性的字体应用设计探析[J].美与时代（创意）（上）,2020(7):70-72.
10杨峰,唐华,毛昀,袁勇,刘文.基于OpenCV的人脸识别设计与实现[J].信息与电脑,2020,32(16):108-110. 被引量：11

计算机工程与应用

2020年第20期

浏览历史

内容加载中请稍等...

结合触发事件及词性分析的敏感信息识别方法被引量：6

参考文献4

二级参考文献37

共引文献170

同被引文献75

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

结合触发事件及词性分析的敏感信息识别方法 被引量：6

参考文献4

二级参考文献37

共引文献170

同被引文献75

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

结合触发事件及词性分析的敏感信息识别方法被引量：6