基于名词掩盖的跨领域作者识别研究

Cross-Domain Authorship Attribution via Noun-maksing

下载PDF

导出

摘要为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现:名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。 To improve the robustness of cross-domain authorship attribution,this paper firstly reveals that nouns are highly domain dependent,and proposes a noun-making strategy for authorship attribution.It forces the algorithm to select features with lower domain dependence so as to improve the generalization ability.In an experiment consisting of 21953 samples,the proposed method outperforms baselines based on n-Gram,BERT and ensemble learning.

作者郭旭祁瑞华 GUO Xu;QI Ruihua(Research Center for Language Intelligence,Dalian University of Foreign Languages,Dalian,Liaoning 116044,China)

机构地区大连外国语大学语言智能研究中心

出处《中文信息学报》 CSCD 北大核心 2023年第1期160-168,共9页 Journal of Chinese Information Processing

基金国家社会科学基金(15BYY028) 辽宁省自然科学基金(2019-ZD-0513) 大连外国语大学研究创新团队(2016CXTD06)。

关键词作者识别跨领域迁移学习掩盖名词 authorship attribution cross-domain transfer learning covering nouns

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9
2徐晓霖,蔡满春,芦天亮.基于深度学习的中文微博作者身份识别研究[J].计算机应用研究,2020,37(1):16-18. 被引量：5

二级参考文献3

1吕英杰,范静,刘景方.基于文体学的中文UGC作者身份识别研究[J].现代图书情报技术,2013(9):48-53. 被引量：11
2祁瑞华,杨德礼,郭旭,刘彩虹.基于多层面文体特征的博客作者身份识别研究[J].情报学报,2015,34(6):628-634. 被引量：14
3祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9

共引文献10

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2徐晓霖,蔡满春,芦天亮.基于深度学习的中文微博作者身份识别研究[J].计算机应用研究,2020,37(1):16-18. 被引量：5
3刘立波.大数据背景下高校网络舆情研判指标体系[J].内蒙古科技与经济,2018(8):130-132. 被引量：5
4郭旭.基于多特征融合深度神经网络的作者识别系统设计[J].现代计算机,2019,0(33):7-10.
5郭旭,祁瑞华.基于神经网络语言模型的作者身份验证[J].情报理论与实践,2020,43(3):138-144. 被引量：2
6肖慧慧,杨斌,刘智.《全唐诗》作者身份识别研究[J].信息与电脑,2020,32(9):32-35. 被引量：1
7郭旭,祁瑞华.作者身份识别中新奇检测方法研究[J].数据分析与知识发现,2020,4(4):56-62.
8张辉,王靖亚,仝鑫.BERT-CharCNN联合模型微博作者身份验证研究[J].江苏警官学院学报,2020,35(6):67-71.
9张翼翔,芦天亮,李默.基于BERT-BiGRU-ATT的社交媒体用户身份识别研究[J].中国人民公安大学学报（自然科学版）,2021,27(1):70-75. 被引量：4
10何泉,孙百兵.基于BiGRU-CapsNet的社交媒体文本作者识别[J].现代计算机,2022,28(21):46-51.

1何泉,孙百兵.基于BiGRU-CapsNet的社交媒体文本作者识别[J].现代计算机,2022,28(21):46-51.
2马维.浅谈核心素养视角下高中语文写作教学探究[J].中文科技期刊数据库（全文版）社会科学,2021(4):119-119.
3刘杰,张志猛,贾伯岩,郑雄伟.恶劣天气下输电线路故障特征拟合模型分析[J].河北电力技术,2022,41(6):45-48. 被引量：1
4杨明珠.“大思政”背景下“应用写作”课程思政的探索与实践[J].福建开放大学学报,2022(6):5-10.
5蒋东辰,刘源,张键飞.基于AI技术的英语阅读文本难度影响因素分析[J].英语教师,2022,22(20):44-49.
6肖志慧,刘久富,王志胜,赖幸君,林磊.基于空间变形的无人机路径规划算法研究[J].弹箭与制导学报,2022,42(6):68-74.
7潘兴臣,刘诚,肖伟刚,朱健强.相干衍射成像技术的最新进展:层叠相位重建技术[J].激光与光电子学进展,2022,59(22):1-30. 被引量：6
8刘飞飞.恶意程序检测关键技术研究[J].山西电子技术,2023(1):108-110.

中文信息学报

2023年第1期

浏览历史

内容加载中请稍等...

基于名词掩盖的跨领域作者识别研究

参考文献2

二级参考文献3

共引文献10

相关作者

相关机构

相关主题

浏览历史