期刊文献+

基于名词掩盖的跨领域作者识别研究

Cross-Domain Authorship Attribution via Noun-maksing
下载PDF
导出
摘要 为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现:名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。 To improve the robustness of cross-domain authorship attribution,this paper firstly reveals that nouns are highly domain dependent,and proposes a noun-making strategy for authorship attribution.It forces the algorithm to select features with lower domain dependence so as to improve the generalization ability.In an experiment consisting of 21953 samples,the proposed method outperforms baselines based on n-Gram,BERT and ensemble learning.
作者 郭旭 祁瑞华 GUO Xu;QI Ruihua(Research Center for Language Intelligence,Dalian University of Foreign Languages,Dalian,Liaoning 116044,China)
出处 《中文信息学报》 CSCD 北大核心 2023年第1期160-168,共9页 Journal of Chinese Information Processing
基金 国家社会科学基金(15BYY028) 辽宁省自然科学基金(2019-ZD-0513) 大连外国语大学研究创新团队(2016CXTD06)。
关键词 作者识别 跨领域 迁移学习 掩盖名词 authorship attribution cross-domain transfer learning covering nouns
  • 相关文献

参考文献2

二级参考文献3

共引文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部