基于自然语言处理的文本泄密自动检测技术被引量：2

Auto-detection technology of text divulgence based on natural language processing

下载PDF

导出

摘要因文本信息泄密导致的危害越来越严重,但传统的泄密检测还停留在人工查看,效率低且易造成二次泄密。针对以上问题,采用文本相似度自动比较和数据加密方法,提出了一种基于自然语言处理的文本泄密自动检测技术。在实际应用中,因检测粒度过粗可能导致漏检,采用基于自然段落和语句的相似度检测方法,方便疑似段落和语句的自动定位,最后设计并实现了一个文本泄密检测系统。实验结果表明,该技术能很好地应用于涉密文本泄密的检测,具有保密、人工干预少、效率高、疑似段落定位等特点。 The damage caused by text divulgence is getting more and more serious while the divulgence detecting remain in the level of manual operation, which is ineffective and easily lead to secondary divulgence. Aimed at the above questions, a auto-detection technology of text divulgence based on natural language processing is proposed by the method of text similarity auto comparison and data eneryption. In practical applications, due to the coarsness of detection, there are the possibility of detection omission. The method of similarity detection based on natural paragraph and sentences is used, which facilitate location of them. Finally, a text divulgence detection system is designed and implemented. The result of the experiment demonstrates that the technology can be used in the detection text divulgence with the feature of privacy, less manual intervention, efficiency, suspected paragraph positioning and so on.

作者王利鑫耿焕同孙凯张茜

机构地区南京信息工程大学计算机与软件学院

出处《计算机工程与设计》 CSCD 北大核心 2011年第8期2600-2603,共4页 Computer Engineering and Design

基金中国博士后科学基金项目(20080431114) 南京信息工程大学校科研基金项目(20070113)

关键词自然语言处理文本泄密加密相似度检测信息抽取 natural language processing text divulgence encryption similarity examination information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
2耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4张裔智,赵毅,汤小斌.MD5算法研究[J].计算机科学,2008,35(7):295-297. 被引量：108
5李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
6袁正午,李玉森,张雪英.基于属性的文本相似度计算算法改进[J].计算机工程,2009,35(17):4-6. 被引量：6
7黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67

二级参考文献50

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
4张小峰,唐新亭,赵永升,李明.基于本体技术的Internet智能搜索研究[J].计算机工程与设计,2006,27(7):1194-1197. 被引量：6
5宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
6严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
7张焕国.计算机安全保密技术[M].北京:机械工业出版社,1997..
8YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.
9GALAVOTTI L, SEBASTIANI F, SIMI M. Feature selection and negative evidence in automated text categorization [ C ]//Proc of KDD- 2000. Boston, MA:[s. n. ], 2000:16-22.
10The Lancaster corpus of mandarin Chinese (LCMC) [ EB/OL]. http ://www. ling. lancs. ac. uk/corplang/lcmc/.

共引文献390

1胡哲,郑诚.一种改进的基于领域本体的概念语义相似度算法[J].齐齐哈尔大学学报（自然科学版）,2013,29(1):1-6. 被引量：1
2李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
3王毅,陈庆新,毛宁.基于本体的改模方案聚类研究[J].机械科学与技术,2015,34(4):570-576.
4李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
5黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
6易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
7化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
8沙莎,胡发连.基于概念结构的科技论文知识管理[J].情报学报,2007,26(6):858-862.
9朱嘉贤,傅秀芬.服务管理代理中Web服务的调用策略研究[J].计算机工程与设计,2008,29(8):1935-1937. 被引量：2
10王晓东,张合,王红涛.基于Ontology的语义信息检索模型研究[J].计算机工程与设计,2008,29(11):2939-2941. 被引量：7

同被引文献18

1杨晓春,刘向宇,王斌,于戈.支持多约束的K-匿名化方法[J].软件学报,2006,17(5):1222-1231. 被引量：60
2Fung B C M, Wang Ke, Chen Rui, et al.. Privacy-preserving datapublishing: a survey on recent developments [J]. ACM ComputingSurveys, 2010,42 (4): 1-53.
3Li Tiancheng, Li Ninghui, Zhang Jian, et al.. Slicing: a newapproach for privacy preserving data publishing [J]. IEEE Trans-actions on Knowledge and Data Engineering,2012,24 (3): 561-574.
4Tristan A, Benjamin N, Philippe P. Towards a safe realization ofprivacy-preserving data publishing mechanisms [C] //Proceedingsof Mobile Data Management, Lulea, Sweden, 2011: 31-34.
5Kim J. A method for limiting disclosure of microdata based on ran-dom noise and transformation [C] //Proceedings of the Section onSurvey Research Methods of the American Statistical Association,Washington DC, 1986: 370-374.
6Palley M, Siminoff J, Regression methodology based disclosureof a statistical database [C] //Proceedings of the Section on SurveyResearch Methods of the American Statistical Association, Wash-ington DC, 1986: 382-387.
7Samarati P, Sweeney L. Protecting privacy when disclosing infor-mation: K-anonymity and its enforcement through generalizationand suppression[R].SRI Computer Science Laboratory, 1998:1-19.
8Sweeney L. -anonymity: a model for protecting privacy [J]. In-ternational Journal of Uncertainty,Fuzziness and Knowledge-Bas-ed Systems, 2002,10 (5): 557-570.
9Sweeney L. Achieving jt-anonymity privacy protection using gen-eralization and suppression [J] .International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems, 2002,10 (5): 571-588.
10Park H, Kyuseok S. Approximate algorithms for -anonymity[C] //Proceedings of SIGMOD, Beijing, 2007: 67-78.

引证文献2

1王柠,刘国华,石丹妮.基于指纹和推导模型的泄密信息检测方案[J].燕山大学学报,2012,36(6):511-518.
2葛玮,吴佳.基于计算机智能识别技术的自然语言处理模型设计[J].无线互联科技,2014,11(9):40-40. 被引量：1

二级引证文献1

1张志新.自然语言的计算机处理模型[J].电子世界,2015(15):191-192.

1黄陇,于洪敏,陈致明,于秀山.基于UML的软件测试自动化研究[J].计算机应用,2004,24(7):135-137. 被引量：11
2张伟龙.数据加密技术在计算机网络通信安全中的应用分析[J].科技创新与应用,2015,5(27):85-85. 被引量：41
3陈东江.刍议数据加密技术在网络通信安全中的应用[J].中国科技博览,2016,0(8):240-240.
4诸剑杰,徐妙君.电子商务中的安全技术研究[J].科技视界,2012(14):173-175.
5韩宇贞,朱华生.基于Base64编码的数据加密技术[J].南昌水专学报,2002,21(4):38-40. 被引量：9
6徐伟民.一种新型端端数据加密方法的设计与应用[J].计算机工程与设计,1990,11(1):43-53.
7赵莉莉.网络安全性分析与对策研究[J].山西财经大学学报,2006,28(S2):233-234. 被引量：1
8兰荣,肖丽丽.从数据加密谈电子商务安全[J].南昌高专学报,2007,22(3):103-106. 被引量：1
9万亦明.计算机网络通信安全中数据加密技术的应用探析[J].建筑界,2013(14):64-65. 被引量：2
10黄远林.使用密码术的软件保护与信息对抗术[J].中南民族大学学报（自然科学版）,1995,15(1):91-94.

计算机工程与设计

2011年第8期

浏览历史

内容加载中请稍等...

基于自然语言处理的文本泄密自动检测技术被引量：2

参考文献7

二级参考文献50

共引文献390

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自然语言处理的文本泄密自动检测技术 被引量：2

参考文献7

二级参考文献50

共引文献390

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自然语言处理的文本泄密自动检测技术被引量：2