基于多层面文体特征的博客作者身份识别研究被引量：14

Blogger Identification Based on Multidimensional Stylistic Features

下载PDF

导出

摘要传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点，以内容无关为原则，分别抽取字符特征、词汇特征、句法特征和文本布局等特征，建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型，并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用，表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。 Models for traditional stylistic features are not suitable for Web tents. Based on the principle of content- independent, we extracted character features, lexical features, syntactic features and text layout features,and established a multidimensional stylistic features model which consists of lexical features, shallow syntactic features, deep syntactic features and structure features. We tested the performance of this model with Naive Bayesian, Decision Tree , Sequential Minimal Optimization SVM and LIBLINEAR SVM on public blog corpus. The results verified the contribution of each feature-dimension. The experiments also proved the accuracy, versatility and robustness of the method proposed in this paper.

作者祁瑞华杨德礼郭旭刘彩虹

机构地区大连理工大学管理与经济学部大连外国语大学计算机教研部

出处《情报学报》 CSSCI 北大核心 2015年第6期628-634,共7页 Journal of the China Society for Scientific and Technical Information

基金教育部人文社会科学研究规划青年基金项目“基于多层面特征分析的在线信息作者身份识别研究”(项目编号:11YJCZH131) 辽宁省高等学校优秀人才支持计划(项目编号:WJQ2013017) 大连外国语大学科研项目“基于语言学特征的网络舆情信息挖掘”的研究成果之一

关键词文体特征博客作者身份 stylistic features, blogger, Identification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] G206 [文化科学—传播学]

引文网络
相关文献

参考文献14

1Stamatatos E. A survey of modern authorship attribution methods [ J ]. Journal of the American Society for Information Science and Technology, 2009, 60 ( 3 ) : 538-556.
2Goebel R,Wahlster W. Using dependency-based annotations for authorship identification [ C ]//Text, Speech and Dialogue. Berlin: Springer, 2012: 314-319.
3Mendenhall T C. The characteristic curves of composition [J]. Science, 1887 (214S): 237-246.
4Yule G U. On sentence-length as a statistical characteristic of style in prose: With application to two cases of disputed authorship [ J]. Biometrika, 1939: 363-390.
5李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66
6Baayen H, Van Halteren H, Tweedie F. Outside the cave of shadows: Using syntactic annotation to enhance authorship attribution [ J ]. Literary and Linguistic Computing, 1996, 11(3): 121-132.
7Zhao Y, Zobel J. Effective and Scalable Authorship Attribution using Function Words [ M ]//Information Retrieval Technology. Berlin : Springer, 2005 : 174-189.
8Gamon M. Linguistic correlates of style: authorship classification with deep linguistic analysis features [ C ]// Proceedings of the 20th International Conference on Computational Linguistics. Association for Computational Linguistics, 2004 : 611-617.
9Abbasi A,Chen H. Applying authorship analysis to extremist- group web forum messages [ J ]. IEEE Intelligent Systems, 2005, 20 (5) : 67-75.
10Zhang C, Wu X, Niu Z, et al. Authorship identification from unstructured texts[ J]. Knowledge-Based Systems, 2014:99-111.

二级参考文献18

1武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
2孙晓明,马少平.基于写作风格的作者识别[C]//中国中文信息学会第五届全国会员代表大会暨成立二十周年学术会议论文集.北京:清华大学出版社,2001.
3Efron B, Thisted R. Estimating the Number of Unseen Species: How Many Words did Shakespeare Know? [ J ]. Biometrika, 1976, 63(3) :435 -447.
4De Vel O, Anderson A, Corney M, et al. Mining E - mail Content for Author Identification Forensics [ J]. ACM S1GMOD Record, 2001,30(4) :55 -64.
5Zheng R, Li J, Huang Z, et al. A Framework for Authorship Identi- fication of Online Messages: Writing - style Features and Classifi- cation Techniques[ J ]. Journal of the American Society for Informa- tion Science and Technology,2006,57 ( 3 ) : 378 - 393.
6Abbasi A, Chen H. Identification and Comparison of Extremist - group Web Forum Messages Using Authorship Analysis [ J ]. IEEE Intelligent Systems,2005,20 ( 5 ) : 67 - 75.
7Holmes D I,Forsyth R S. The Federalist Revisited:New Directions in Authorship Attribution [ J ]. Literary and Linguistic Computing, 1995,10(2) :111 - 127.
8Juola P, Baayen H. A Controlled Corpus Experiment in Authorship Identification by Cross -entropy[ J]. Literary and Linguistic Com- puting,2005,20(S) :59 -67.
9Abbasi A, Chen H. Writeprints:A Stylometric Approach to Identity -level Identification and Similarity Detection in Cyberspace [ J ]. ACM Transactions on Information Systems ,2008,26 (2) :1 -29.
10Salton G, Buckley C. Term - weighting Approaches in Automatic Text Retrieval [ J ]. Information Processing and Management, 1988,24 (5) :513 -523.

共引文献74

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2朱东旭,严广乐.基于LSTM的《红楼梦》文本风格分界点识别方法[J].智能计算机与应用,2020,10(8):242-248. 被引量：2
3武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
4夏昌华.试论近、现代数学在人文社会科学研究中的应用[J].理论月刊,2007(10):63-65. 被引量：2
5吴国柱.胡适红学范式批判[J].贵州大学学报（社会科学版）,1998,16(2):38-46.
6韦博成.《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用)[J].应用概率统计,2009(4):441-448. 被引量：19
7施建军.关于以《红楼梦》120回为样本进行其作者聚类分析的可信度问题研究[J].红楼梦学刊,2010(5):318-335. 被引量：23
8张凯,张明允.基于SVM的《红楼梦》写作风格研究[J].贵阳学院学报（自然科学版）,2011,6(1):55-57. 被引量：2
9施建军.基于支持向量机技术的《红楼梦》作者研究[J].红楼梦学刊,2011(5):35-52. 被引量：32
10周哲良.从两书合成看《红楼梦》对人情小说的超越[J].四川职业技术学院学报,2011,21(5):47-49.

同被引文献92

1陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：4
2徐晓霖,蔡满春,芦天亮.基于深度学习的中文微博作者身份识别研究[J].计算机应用研究,2020,37(1):16-18. 被引量：4
3冯志伟.特思尼耶尔的从属关系语法[J].当代语言学,1983(1):63-65. 被引量：48
4高增霞.自然口语中的话语标记“完了”[J].语文研究,2004(4):20-23. 被引量：51
5李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
6李宗江.“回头”的词汇化与主观性[J].语言科学,2006,5(4):24-28. 被引量：31
7刘丽艳.话语标记“你知道”[J].中国语文,2006(5):423-432. 被引量：87
8武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
9董秀芳.词汇化与话语标记的形成[J].世界汉语教学,2007,21(1):50-61. 被引量：403
10Mendenhall T C. The characteristic curves of composition [ J ]. Sci- ence,1887(214S) :237 -246.

引证文献14

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2徐晓霖,蔡满春,芦天亮.基于深度学习的中文微博作者身份识别研究[J].计算机应用研究,2020,37(1):16-18. 被引量：4
3董庆兴,李华阳,曹高辉,夏立新.基于深度学习的MOOC论坛探索型对话识别方法研究[J].图书情报工作,2019,63(5):92-99. 被引量：10
4祁瑞华,霍跃红,胡润波.文本作者身份识别研究综述[J].图书情报工作,2015,59(16):143-148. 被引量：1
5郭旭,祁瑞华.作者身份识别中不规范文本特征选择方法的研究[J].现代图书情报技术,2016(11):27-33. 被引量：3
6祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9
7祁瑞华.基于依存关系的中文微博作者性别识别[J].数据分析与知识发现,2017,1(2):58-63. 被引量：1
8郭旭.基于多特征融合深度神经网络的作者识别系统设计[J].现代计算机,2019,0(33):7-10. 被引量：1
9郭旭,祁瑞华.基于神经网络语言模型的作者身份验证[J].情报理论与实践,2020,43(3):138-144. 被引量：2
10肖慧慧,杨斌,刘智.《全唐诗》作者身份识别研究[J].信息与电脑,2020,32(9):32-35. 被引量：1

二级引证文献32

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2徐晓霖,蔡满春,芦天亮.基于深度学习的中文微博作者身份识别研究[J].计算机应用研究,2020,37(1):16-18. 被引量：4
3毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
4刘立波.大数据背景下高校网络舆情研判指标体系[J].内蒙古科技与经济,2018(8):130-132. 被引量：5
5侯海东,洪腾龙,徐建良.SCI论文作者自动识别方法研究[J].软件导刊,2018,17(8):57-60. 被引量：3
6高海波,晋诚.网络化新闻热点主题自动提取方法研究[J].自动化与仪器仪表,2018,0(11):44-46.
7吴青霞,刘东亮,王丹,张祥合.基于文献计量共引分析的图书情报数据整合方法[J].情报科学,2019,37(11):112-115. 被引量：12
8罗弦.基于SPOC的大学公共课程信息化教学平台建设及运行研究[J].情报科学,2019,37(12):110-113. 被引量：20
9郭旭.基于多特征融合深度神经网络的作者识别系统设计[J].现代计算机,2019,0(33):7-10. 被引量：1
10初秀丽.基于SPOC的大学信息化教学平台建设探究[J].白城师范学院学报,2019,33(11):63-66. 被引量：3

1祁瑞华,郭旭,刘彩虹.中文微博作者身份识别研究[J].情报学报,2017,36(1):72-78. 被引量：9
2李宇.网络时代的电视新闻选题与内容如何创新——以央视新闻频道“24小时”栏目为例[J].今传媒,2010,18(5):69-72. 被引量：3
3我国已有2080万博客作者[J].新闻前哨,2007(2):20-20.
4“编目精灵”将出版《编目的未来》[J].大学图书馆学报,2010,28(1):23-23.
5郭楠.关于记者与网络关系的思考[J].青年记者,2010(5Z):18-19.
6英国《卫报》将用博客报道新闻[J].新闻传播,2009(11):5-5.
7张婧.英语新闻标题的词汇特征[J].西安文理学院学报（社会科学版）,2009,12(2):49-50. 被引量：3
8倪伟波.耶鲁“陷害门”:无法掩埋的真相[J].科学新闻,2014(4):77-79.
9Abstracts[J].Qiu Shi,2012,4(1):142-148.
10英国图书业“影响力100”榜单公布[J].出版参考,2009(12):38-38.

情报学报

2015年第6期

浏览历史

内容加载中请稍等...

基于多层面文体特征的博客作者身份识别研究被引量：14

参考文献14

二级参考文献18

共引文献74

同被引文献92

引证文献14

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于多层面文体特征的博客作者身份识别研究 被引量：14

参考文献14

二级参考文献18

共引文献74

同被引文献92

引证文献14

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于多层面文体特征的博客作者身份识别研究被引量：14