基于似然比的短文本作者归属研究

The Author Attribution of the Short Text Based on the Likelihood Ratio

下载PDF

导出

摘要伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不能很好地适用,因此研究适合于中文应用场景的短文本消息作者归属算法具有一定的现实意义.基于 N -gram模型,利用似然比(likelihood ratio, LR)方法,通过词频的分布特征来确定短文本的作者归属.实验结果表明,该方法取得了比较好的归属效果. With the popularization of information technology in daily life, there are more and more cases of short Internet texts as electronic evidence data. International research on such issues has been comparatively rich and accumulated some mature experience. However, due to the characteristics and complexity of Chinese language, the research results of western countries, which mainly take English as the application scene, are not very applicable to Chinese scene. Therefore, it is of practical significance to focus on the author attribution algorithm of short text messages which are suitable for Chinese application scenarios. Based on the N -gram model and the likelihood ratio method, this paper determines the author attribution of short text through the distribution feature of word frequency. The experimental results show that this method has achieved a better attribution effect.

作者李孟林 Li Menglin(Cyber Crime Investigation Department,Criminal Investigation Police University of China,Shenyang 110854)

机构地区中国刑事警察学院网络犯罪侦查系

出处《信息安全研究》 2019年第9期843-846,共4页 Journal of Information Security Research

关键词短文本电子数据 N-GRAM 作者归属似然比 short text electronic data N -gram author attribution likelihood ratio

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(5):35-52. 被引量：32
2范亚超,罗天健,周昌乐.基于降噪自编码器特征学习的作者识别及其在《西游记》诗词上的应用[J].厦门大学学报（自然科学版）,2018,57(6):884-889. 被引量：6
3李晓军,刘怀亮,杜坤.一种基于复杂网络模型的作者身份识别方法[J].图书情报工作,2015,59(18):102-107. 被引量：9
4张翠玲,谭铁君.基于贝叶斯统计推理的法庭证据评价[J].刑事技术,2018,43(4):265-271. 被引量：33

二级参考文献48

1李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66
2崔景旭.证据真实性及其强度的科学性评估[J].中国刑警学院学报,2015(1):29-34. 被引量：7
3谢晓晖.《西游记》虚词“着”的词义探析[J].湖南第一师范学报,2004,4(4):74-76. 被引量：1
4LIYong,WEILuoxia,LIwei,NIUYi,LUOShiyu.Small-world patterns in Chinese phrase networks[J].Chinese Science Bulletin,2005,50(3):286-288. 被引量：8
5杜贵晨,王艳.四百年《西游记》作者问题论争综述[J].泰山学院学报,2006,28(4):19-25. 被引量：5
6武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
7蒋绍愚.《近代汉语研究概论》,北京大学出版社,2005.11.
8陈大康.《‘(红楼梦)成书新说’难以成立-与李贤平同志商榷》[J].华东师范大学学报：哲学社会科学版,1988,(1).
9李荣峰.《支持向量机SVM》,http://ai.pku.edu.cn/biomet-rics2007/lecture/8.pdf,2007.
10Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, A Practical Guide to Support Vector Classi_cation [ EB ], http://www, csie. ntu. edu. tw/- cjlin, Last updated: March 13, 2010.

共引文献73

1李咏慧.论《红楼梦》的诗词之美[J].中国多媒体与网络教学学报（电子版）,2019,0(11):235-236.
2张庆时.似然率应用于残缺鞋印检验的可行性探究[J].河南司法警官职业学院学报,2020(1):96-99.
3刘勤学.GH2036合金高温持久缺口敏感性的研究[J].四川冶金,2000,22(1):19-22. 被引量：1
4施政.《红楼梦》研究中的统计方法综述[J].吉林省教育学院学报,2019,35(1):151-156. 被引量：3
5马创新,陈小荷.从高频词等级相关角度探析《红楼梦》作者[J].中文信息学报,2018,32(11):97-102. 被引量：7
6董庆兴,李华阳,曹高辉,夏立新.基于深度学习的MOOC论坛探索型对话识别方法研究[J].图书情报工作,2019,63(5):92-99. 被引量：10
7刘颖,肖天久.《红楼梦》计量风格学研究[J].红楼梦学刊,2014(4):260-281. 被引量：20
8祁瑞华,霍跃红,郭旭,刘彩虹.典籍英译作者身份识别研究[J].现代图书情报技术,2015(1):31-37. 被引量：2
9马燕.基于相对熵的作品作者判定方法[J].文教资料,2014(31):131-133. 被引量：1
10肖天久,刘颖.《红楼梦》词和N元文法分析[J].现代图书情报技术,2015(4):50-57. 被引量：10

1何俊.《西游记》在德语世界的译介和传播[J].中华文化海外传播研究,2018(1):270-282. 被引量：1
2葛鑫.林云铭《楚辞灯》与“二招”作者探微[J].北方文学,2019,0(5):64-65.
3吕晓.《小中现大》再研究[J].美术观察,2019(6):45-50.
4吴夏平.刘禹锡研究回顾与展望[J].中文学术前沿,2018,0(1):40-54. 被引量：1
5何涛,王桂芳,马廷灿.基于类中心向量的论文作者归属机构自动识别方法研究[J].情报学报,2019,38(7):716-721. 被引量：5
6渠嵩烽.《陆秀夫抱王入海图诗》作者辨疑[J].图书馆杂志,2019,0(4):109-114.
7施呈优,黄文坡,蒋炜.考虑使用环境差异的产品可靠性监控[J].科技管理研究,2019,39(15):210-215.
8陈根民.《中国书法全集·宋辽金北宋名家》误鉴一例[J].书法,2019,0(8):70-74.
9汪大勋,高旭亮,蔡艳,涂冬波.一种广义的认知诊断Q矩阵修正新方法[J].心理科学,2019,42(4):988-996. 被引量：4
10彭晓静,毛翠莲,杭菁,许迪,叶新华.高频超声在女性腹股沟囊性病变鉴别诊断中的应用[J].中国超声医学杂志,2019,0(9):833-836. 被引量：5

信息安全研究

2019年第9期

浏览历史

内容加载中请稍等...

基于似然比的短文本作者归属研究

参考文献4

二级参考文献48

共引文献73

相关作者

相关机构

相关主题

浏览历史