基于电子取证数据的内容分析技术和应用

Content Analysis Technique and Application on Digital Forensics

下载PDF

导出

摘要电子取证数据中聊天内容的数据量最大，针对内容的研判分析是重点和难点。通过采用模板、语义分析、HMM-Viterbi模型对内容提取重要信息，并采用计算文本特征值和深度学习计算语义距离挖掘涉案关键词，并通过TextRank算法提取内容关键词和自动摘要，从而能够快速掌握大量的聊天内容中的主要内容关键信息，提高工作效率。 In the field of digital forensics,files of chat history have the largest data scale,where the difficulty and prio- rity is to analyze the content of those messages. Different templates, semantic analysis and HMM-Viterbi model were employed to extract the key ideas of texts. Meanwhile, utilization of eigenvalues of texts combined with deep learning in calculating semantic similarities was used to dig out the keywords of cases. Additionally, TextRank algorithm aids in drawing the key-words and auto abstract of individual message files. All three strategies together accelerate the process of understanding main ideas and key messages delivered by large scale of data, so highly improving the working efficiency.

作者曾超刘晓宇林艺滨温若辉 ZENG Chao LIU Xiao-yu LIN Yi-bin WEN Ruo-hui(Xiamen Meiya Pico Information Co. ,Ltd. , Xiamen 361008, China Cyber Security Department, Beijing 100006, China)

机构地区厦门市美亚柏科信息股份有限公司公安部网络安全保卫局

出处《计算机科学》 CSCD 北大核心 2016年第B12期228-230,共3页 Computer Science

关键词取证分析语义分析 HMM-Viterbi TextRank 词云图 Digital forensics, Semantic analysis, HMM-Viterbi, TextRank, Word cloud

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：103
2方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
3周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
4刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2

二级参考文献22

1俞士汶.语法知识在语言信息处理研究中的作用[J].语言文字应用,1997(4):82-88. 被引量：17
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
4Ji Heng, Luo Zhen-Shen. Inverse name frequency model and rules based on Chinese name identifying. In: Huang ChangNing, Zhang Pu ed.. Natural Language Understanding and Machine Translation. Beijing: Tsinghua University Press,2001, 123 - 128( in Chinese)(季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统.见:黄昌宁,张普编.自然语言理解与机器翻译.北京:清华大学出版社,2001,123-128)
5Zhen Jia-Heng, Liu Kai-Ying. Discussion on strategy of surname and personal name processing in Chinese word segmentation. In: Chen Li-Wei ed.. Research and Application of Computational Linguistics. Beijing: Beijing Institute of Linguistics and Culture Press, 1993(in Chinese)(郑家恒刘开瑛.自动分词系统中姓氏人名的处理策略探讨.见:陈力为编.计算语言研究与应用.北京:北京语言学院出版社,1993)
6Song Rou, Zhu Hong et al.. Approach of personal name recognition based on corpus and rules. In: Chen Li Wei ed.. Research and Application of Computational Linguistics. Beijing:Beijing Institute of Linguistics and Culture Press, 1993(in Chinese)(宋柔,朱宏等.基于语料库和规则库的人名识别法.见:陈力为编.计算语言研究与应用.北京:北京语言学院出版社,1993)
7Wang Sheng, Huang De-Gen, Yang Yuan-Sheng. Chinese person name recognition based on mixture of statistics and rules.In: Huang Chang-Ning, Dong Zhen-Dong ed.. Corpora of Computational Linguistics. Beijing: Tsinghua University Press, 1999 (in Chinese)(王省,黄德根,杨元生.基于统计和规则相结合的中文姓名识别.见:黄昌宁,董振东编.计算语言学文集.北京:清华大学出版社,1999)
8Chen Xiao-He. Automatic Analysis of Modern Chinese. Beijing: Beijing University Linguistics and Culture Press, 2000,104-114(in Chinese)(陈小荷.现代汉语自动分析.北京:北京语言文化大学出版社, 2000, 104-114 )
9Rabiner L. R.. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of IEEE, 1989, 77(2): 257～286
10Rabiner L. R. , Juang B. H. An introduction to hidden Markov models. IEEE Acoustics, Speech & Signal Processing Magazine, 1986, 3:4～166

共引文献213

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
3钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
7车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
8蔡勇智.未登录词识别算法的改进[J].福建电脑,2006,22(3):116-117. 被引量：4
9俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
10周波,杨国纬.基于贝叶斯算法的中国人名识别[J].计算机应用,2006,26(4):998-1000. 被引量：12

1苑金海.电子商务环境下动态取证关键技术研究[J].科技信息,2011(29). 被引量：1
2潘晓英,胡开开,朱静.一种基于TextRank的文本二次聚类算法[J].计算机技术与发展,2016,26(8):7-11. 被引量：3
3方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
4顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
5田长波,林民,斯日古楞.融合PAM和主题偏好TextRank的历史沿革信息抽取[J].计算机应用研究,2017,34(1):123-127. 被引量：6
6许学添,邹同浩.基于弱关联挖掘的网络取证数据采集系统设计与实现[J].计算机测量与控制,2017,25(1):123-126. 被引量：10
7云取证变得越来越重要[J].网络运维与管理,2014(11):9-9.
8山德鲁.轻松提取网页图文内容[J].电脑知识与技术（经验技巧）,2014(6):117-117.
9张巍,滕少华,傅秀芬.数据融合的协同网络入侵检测[J].计算机应用,2009,29(1):284-287. 被引量：5
10李亚芬,李征.基于Alfresco的出版社资源库系统的研究与实现[J].软件,2015,36(5):34-39.

计算机科学

2016年第B12期

浏览历史

内容加载中请稍等...

基于电子取证数据的内容分析技术和应用

参考文献4

二级参考文献22

共引文献213

相关作者

相关机构

相关主题

浏览历史