基于深度学习的中文微博作者身份识别研究被引量：5

Research on author identity recognition of Chinese microblog based on deep learning

下载PDF

导出

摘要作者身份识别一直在公安行业和文检工作中起着重要的作用。现有的作者语言风格建模过程繁琐、文本特征工程没有普适性。针对此问题,在无须专家进行特征建模的情况下,提出CABLSTM中文微博作者身份识别模型,并在公开微博语料集测试该模型准确度。该模型为最大化提取短文本特征,融合attention机制于CNN中并去除池化层,通过双向LSTM以获取上下文相关信息,身份识别结果通过softmax层进行输出。实验结果表明,该模型在进行中文微博作者身份识别任务中与传统机器学习算法、Text CNN和LSTM算法相对比,在准确率、召回率、F值方面都有一定的提升。 Author identification always plays an important role in the public security and literary inspection work.Texts feature extraction is cumbersome and not universal.To solve this problem,this paper proposed the CABLSTM Chinese microblog author identification model without expert feature modeling,and tested the accuracy of the model in the open microblog corpus.This model maximized the extraction of short text features,fused the attention mechanism in the CNN and removed the pooling layer,and obtained context-related information through the bidirectional LSTM.The identity recognition result was output through the softmax layer.Experimental results show that the model has a certain improvement in accuracy,recall rate,and F-measure in comparison with traditional machine learning algorithms and TextCNN and LSTM algorithms in the identification task of Chinese microblog authors.

作者徐晓霖蔡满春芦天亮 Xu Xiaolin;Cai Manchun;Lu Tianliang(School of Information Technology&Network Security,People’s Public Security University of China,Beijing 102623,China)

机构地区中国人民公安大学信息技术与网络安全学院

出处《计算机应用研究》 CSCD 北大核心 2020年第1期16-18,25,共4页 Application Research of Computers

基金国家重点研发计划重点专项资助项目(2017YFB0802804) 国家自然科学基金资助项目(61602489) 中国人民公安大学2018年基本科研业务费科研机构项目(2018JKF504).

关键词作者身份识别长短时记忆网络卷积神经网络特征自动提取 author identification LSTM CNN automatic feature extraction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9
2祁瑞华,杨德礼,郭旭,刘彩虹.基于多层面文体特征的博客作者身份识别研究[J].情报学报,2015,34(6):628-634. 被引量：14

二级参考文献15

1李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：65
2Stamatatos E. A survey of modern authorship attribution methods [ J ]. Journal of the American Society for Information Science and Technology, 2009, 60 ( 3 ) : 538-556.
3Goebel R,Wahlster W. Using dependency-based annotations for authorship identification [ C ]//Text, Speech and Dialogue. Berlin: Springer, 2012: 314-319.
4Mendenhall T C. The characteristic curves of composition [J]. Science, 1887 (214S): 237-246.
5Yule G U. On sentence-length as a statistical characteristic of style in prose: With application to two cases of disputed authorship [ J]. Biometrika, 1939: 363-390.
6Baayen H, Van Halteren H, Tweedie F. Outside the cave of shadows: Using syntactic annotation to enhance authorship attribution [ J ]. Literary and Linguistic Computing, 1996, 11(3): 121-132.
7Zhao Y, Zobel J. Effective and Scalable Authorship Attribution using Function Words [ M ]//Information Retrieval Technology. Berlin : Springer, 2005 : 174-189.
8Gamon M. Linguistic correlates of style: authorship classification with deep linguistic analysis features [ C ]// Proceedings of the 20th International Conference on Computational Linguistics. Association for Computational Linguistics, 2004 : 611-617.
9Abbasi A,Chen H. Applying authorship analysis to extremist- group web forum messages [ J ]. IEEE Intelligent Systems, 2005, 20 (5) : 67-75.
10Zhang C, Wu X, Niu Z, et al. Authorship identification from unstructured texts[ J]. Knowledge-Based Systems, 2014:99-111.

共引文献16

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2董庆兴,李华阳,曹高辉,夏立新.基于深度学习的MOOC论坛探索型对话识别方法研究[J].图书情报工作,2019,63(5):92-99. 被引量：10
3祁瑞华,霍跃红,胡润波.文本作者身份识别研究综述[J].图书情报工作,2015,59(16):143-148. 被引量：1
4郭旭,祁瑞华.作者身份识别中不规范文本特征选择方法的研究[J].现代图书情报技术,2016(11):27-33. 被引量：3
5祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9
6祁瑞华.基于依存关系的中文微博作者性别识别[J].数据分析与知识发现,2017,1(2):58-63. 被引量：1
7刘立波.大数据背景下高校网络舆情研判指标体系[J].内蒙古科技与经济,2018(8):130-132. 被引量：5
8郭旭.基于多特征融合深度神经网络的作者识别系统设计[J].现代计算机,2019,0(33):7-10.
9郭旭,祁瑞华.基于神经网络语言模型的作者身份验证[J].情报理论与实践,2020,43(3):138-144. 被引量：2
10肖慧慧,杨斌,刘智.《全唐诗》作者身份识别研究[J].信息与电脑,2020,32(9):32-35. 被引量：1

同被引文献7

1王少康,董科军,阎保平.基于语句节奏特征的作者身份识别研究[J].计算机工程,2011,37(9):4-5. 被引量：10
2吕英杰,范静,刘景方.基于文体学的中文UGC作者身份识别研究[J].现代图书情报技术,2013(9):48-53. 被引量：11
3祁瑞华,杨德礼,郭旭,刘彩虹.基于多层面文体特征的博客作者身份识别研究[J].情报学报,2015,34(6):628-634. 被引量：14
4李晓军,刘怀亮,杜坤.一种基于复杂网络模型的作者身份识别方法[J].图书情报工作,2015,59(18):102-107. 被引量：9
5祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9
6冯勇,屈渤浩,徐红艳,王嵘冰,张永刚.融合TF-IDF和LDA的中文FastText短文本分类方法[J].应用科学学报,2019,37(3):378-388. 被引量：30
7张翼翔,芦天亮,李默.基于BERT-BiGRU-ATT的社交媒体用户身份识别研究[J].中国人民公安大学学报（自然科学版）,2021,27(1):70-75. 被引量：4

引证文献5

1郭旭.基于多特征融合深度神经网络的作者识别系统设计[J].现代计算机,2019,0(33):7-10.
2张辉,王靖亚,仝鑫.BERT-CharCNN联合模型微博作者身份验证研究[J].江苏警官学院学报,2020,35(6):67-71.
3张翼翔,芦天亮,李默.基于BERT-BiGRU-ATT的社交媒体用户身份识别研究[J].中国人民公安大学学报（自然科学版）,2021,27(1):70-75. 被引量：4
4何泉,孙百兵.基于BiGRU-CapsNet的社交媒体文本作者识别[J].现代计算机,2022,28(21):46-51.
5郭旭,祁瑞华.基于名词掩盖的跨领域作者识别研究[J].中文信息学报,2023,37(1):160-168.

二级引证文献4

1郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：6
2何泉,孙百兵.基于BiGRU-CapsNet的社交媒体文本作者识别[J].现代计算机,2022,28(21):46-51.
3卢东岳,王兴芬,李莉.基于流调数据的患者关系知识图谱构建[J].微电子学与计算机,2023,40(3):46-55. 被引量：1
4石洁.基于零信任安全架构的网络用户身份跨域匹配[J].电子设计工程,2023,31(20):150-153.

1陈丽,曹红格.人工智能技术在影像诊断中的应用及展望[J].现代医用影像学,2020,29(1):19-21. 被引量：7
2李扬,张伟,彭晨.目标依赖的作者身份识别方法[J].计算机应用,2020,40(2):473-478. 被引量：1
3邢蒙蒙,魏国辉,刘静,张俊忠,杨锋,曹慧.多模态人体动作表示识别及其正骨康复训练应用综述[J].生物医学工程学杂志,2020,37(1):174-178. 被引量：3
4邹建成,邓豪.一种基于卷积神经网络的人脸表情自动识别方法[J].北方工业大学学报,2019,31(5):51-56. 被引量：3
5张宁.避免视觉刺激的城市道路侧景观色彩特征自动提取方法[J].自动化与仪器仪表,2019,0(11):21-24. 被引量：1
6马梦冬,彭道刚,王丹豪.基于EEMD-LSTM的区域能源短期负荷预测[J].浙江电力,2020,39(4):29-35. 被引量：22
7张船红,郭豫宾.Landsat影像的地表温度反演及其强度变化分析[J].测绘科学,2020,45(3):61-66. 被引量：10
8沈红豆,李婷,单秋璐,刘丽妍,韩永良,白静娜.编织管增强PVDF中空纤维膜界面处理及性能研究[J].现代纺织技术,2020,28(3):1-6. 被引量：2
9刘俊杰,潘自武,秦奋,顾江岩,朱明阳,赵芳.基于MODIS的秦巴山地气温估算与山体效应分析[J].地理研究,2020,0(3):735-748. 被引量：14
10袁航,王晓蕊,袁影,张卫国,郭冰涛.天基平台海云背景下飞机全链路成像特征建模及分析[J].红外与激光工程,2020,49(2):208-216. 被引量：3

计算机应用研究

2020年第1期

浏览历史

内容加载中请稍等...

基于深度学习的中文微博作者身份识别研究被引量：5

参考文献2

二级参考文献15

共引文献16

同被引文献7

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文微博作者身份识别研究 被引量：5

参考文献2

二级参考文献15

共引文献16

同被引文献7

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度学习的中文微博作者身份识别研究被引量：5