伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不...伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不能很好地适用,因此研究适合于中文应用场景的短文本消息作者归属算法具有一定的现实意义.基于 N -gram模型,利用似然比(likelihood ratio, LR)方法,通过词频的分布特征来确定短文本的作者归属.实验结果表明,该方法取得了比较好的归属效果.展开更多
文摘伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不能很好地适用,因此研究适合于中文应用场景的短文本消息作者归属算法具有一定的现实意义.基于 N -gram模型,利用似然比(likelihood ratio, LR)方法,通过词频的分布特征来确定短文本的作者归属.实验结果表明,该方法取得了比较好的归属效果.