伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不...伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不能很好地适用,因此研究适合于中文应用场景的短文本消息作者归属算法具有一定的现实意义.基于 N -gram模型,利用似然比(likelihood ratio, LR)方法,通过词频的分布特征来确定短文本的作者归属.实验结果表明,该方法取得了比较好的归属效果.展开更多
基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该...基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该模型融合滑动窗口的思想,引入词(字)向量、数据增强技术,从而充分利用文本信息、自动提取文本特征,并且以可视化的方式将结果呈现出来。使用该模型来检测《红楼梦》、《Roman de la Rose》的作者归属,实验结果表明《红楼梦》的前八十回与后四十回为不同作者所著、《Roman de la Rose》开篇4 058行(约50 000字)与后面17 724行(约218 000字)为不同作者所著。证明了Rolling-fastText模型判定文本作者归属的有效性。展开更多
《布达佩斯大饭店》(Grand Budapest Hotel,2014)可以说是迄今为止韦斯·安德森(Wes Anderson)最流行、最商业也最有批判性的电影,通过本文所做的电影批评,我将证明《布达佩斯大饭店》是由一位极具天赋的作家/导演完成的一部多层构...《布达佩斯大饭店》(Grand Budapest Hotel,2014)可以说是迄今为止韦斯·安德森(Wes Anderson)最流行、最商业也最有批判性的电影,通过本文所做的电影批评,我将证明《布达佩斯大饭店》是由一位极具天赋的作家/导演完成的一部多层构造的“杰作”,尽管这部影片尚未从电影学者处获得应有的承认。为了印证我关于《布达佩斯大饭店》重要性的判断,本文详细考察了该片的两个具体维度。展开更多
文摘伴随信息技术在日常生活中的普及,互联网短文本作为电子数据证据的案例越来越多.国际上针对此类问题的研究已经很多,并积累了一定的成熟经验.然而,由于中文自身的特点和复杂性,西方国家主要以英文为应用场景的研究成果在中文场景下并不能很好地适用,因此研究适合于中文应用场景的短文本消息作者归属算法具有一定的现实意义.基于 N -gram模型,利用似然比(likelihood ratio, LR)方法,通过词频的分布特征来确定短文本的作者归属.实验结果表明,该方法取得了比较好的归属效果.
文摘基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该模型融合滑动窗口的思想,引入词(字)向量、数据增强技术,从而充分利用文本信息、自动提取文本特征,并且以可视化的方式将结果呈现出来。使用该模型来检测《红楼梦》、《Roman de la Rose》的作者归属,实验结果表明《红楼梦》的前八十回与后四十回为不同作者所著、《Roman de la Rose》开篇4 058行(约50 000字)与后面17 724行(约218 000字)为不同作者所著。证明了Rolling-fastText模型判定文本作者归属的有效性。
文摘《布达佩斯大饭店》(Grand Budapest Hotel,2014)可以说是迄今为止韦斯·安德森(Wes Anderson)最流行、最商业也最有批判性的电影,通过本文所做的电影批评,我将证明《布达佩斯大饭店》是由一位极具天赋的作家/导演完成的一部多层构造的“杰作”,尽管这部影片尚未从电影学者处获得应有的承认。为了印证我关于《布达佩斯大饭店》重要性的判断,本文详细考察了该片的两个具体维度。