摘要
传统的文体风格特征模型不适用于当前大量涌现的网络文本。本文针对以博客为代表的网络文本篇幅短小、表达方式丰富灵活的特点,以内容无关为原则,分别抽取字符特征、词汇特征、句法特征和文本布局等特征,建立了由词汇特征、浅层句法特征、深层句法特征和结构特征组成的多层面文体风格特征模型,并选取朴素贝叶斯、决策树、序列最小优化支持向量机和大规模线性分类支持向量机算法在公开博客语料上进行对照实验。实验结果验证了各个层面特征在作者身份识别中的作用,表明了本文方法的准确性、通用性及其在短文本上的鲁棒性。
Models for traditional stylistic features are not suitable for Web tents. Based on the principle of content- independent, we extracted character features, lexical features, syntactic features and text layout features,and established a multidimensional stylistic features model which consists of lexical features, shallow syntactic features, deep syntactic features and structure features. We tested the performance of this model with Naive Bayesian, Decision Tree , Sequential Minimal Optimization SVM and LIBLINEAR SVM on public blog corpus. The results verified the contribution of each feature-dimension. The experiments also proved the accuracy, versatility and robustness of the method proposed in this paper.
出处
《情报学报》
CSSCI
北大核心
2015年第6期628-634,共7页
Journal of the China Society for Scientific and Technical Information
基金
教育部人文社会科学研究规划青年基金项目“基于多层面特征分析的在线信息作者身份识别研究”(项目编号:11YJCZH131)
辽宁省高等学校优秀人才支持计划(项目编号:WJQ2013017)
大连外国语大学科研项目“基于语言学特征的网络舆情信息挖掘”的研究成果之一
关键词
文体特征
博客
作者身份
stylistic features, blogger, Identification