期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
现当代文学作品的作者身份识别研究 被引量:21
1
作者 年洪东 陈小荷 王东波 《计算机工程与应用》 CSCD 北大核心 2010年第4期226-229,共4页
主要利用了SVM统计机器学习模型对中国现当代文学八位代表人物的作品进行了作者身份识别研究,在识别过程中选取了以词汇为基础的多种统计量作为识别特征,并且采取了基于低密度多特征的训练方法,在跨文体的作品的作者身份识别中取得了非... 主要利用了SVM统计机器学习模型对中国现当代文学八位代表人物的作品进行了作者身份识别研究,在识别过程中选取了以词汇为基础的多种统计量作为识别特征,并且采取了基于低密度多特征的训练方法,在跨文体的作品的作者身份识别中取得了非常优异的识别性能。 展开更多
关键词 作者身份识别 机器学习 计算风格学 现当代文学
下载PDF
基于语句节奏特征的作者身份识别研究 被引量:10
2
作者 王少康 董科军 阎保平 《计算机工程》 CAS CSCD 北大核心 2011年第9期4-5,8,共3页
提出一种新的写作风格相似度评估方法,利用不同作者写作时在文章语句节奏控制方面的特点,鉴别作者的写作风格,从而达到作者身份识别的目的。该方法构建节奏特征矩阵模型来描述文本的语句节奏,利用点积相似度算法以及改进的KL距离算法来... 提出一种新的写作风格相似度评估方法,利用不同作者写作时在文章语句节奏控制方面的特点,鉴别作者的写作风格,从而达到作者身份识别的目的。该方法构建节奏特征矩阵模型来描述文本的语句节奏,利用点积相似度算法以及改进的KL距离算法来度量节奏特征矩阵之间的差异。实验表明,该方法在文学作品的作者识别方面具有较高的准确率。 展开更多
关键词 文本挖掘 作者身份识别 文本相似度 节奏特征 多维矩阵
下载PDF
中文微博作者身份识别研究 被引量:9
3
作者 祁瑞华 郭旭 刘彩虹 《情报学报》 CSSCI CSCD 北大核心 2017年第1期72-78,共7页
本文针对中文微博篇幅短小、无间隔标记等特点,建立了由词汇特征、浅层句法和深层句法特征集组成的中文微博作者文体特征模型,选取支持向量机、序列最小优化支持向量机、朴素贝叶斯和决策树算法在公开微博语料上进行算法对照实验、特征... 本文针对中文微博篇幅短小、无间隔标记等特点,建立了由词汇特征、浅层句法和深层句法特征集组成的中文微博作者文体特征模型,选取支持向量机、序列最小优化支持向量机、朴素贝叶斯和决策树算法在公开微博语料上进行算法对照实验、特征集组合实验和各组文体特征的作者身份识别实验。实验结果验证了本文模型在中文微博作者身份识别任务中的高准确率、召回率和时间效率。 展开更多
关键词 中文 微博 作者身份识别
下载PDF
目标依赖的作者身份识别方法 被引量:1
4
作者 李扬 张伟 彭晨 《计算机应用》 CSCD 北大核心 2020年第2期473-478,共6页
作者身份识别任务旨在判断一篇文档的作者,但目前已有的作者身份识别方法都是目标独立的,意味着这些方法在预测作者身份时假设没有任何限定条件,这与实际情况不相符合。为了解决限定条件下的作者身份识别问题,提出了一种目标依赖的作者... 作者身份识别任务旨在判断一篇文档的作者,但目前已有的作者身份识别方法都是目标独立的,意味着这些方法在预测作者身份时假设没有任何限定条件,这与实际情况不相符合。为了解决限定条件下的作者身份识别问题,提出了一种目标依赖的作者身份识别方法TDAA。首先,使用用户评论对应的商品ID作为限定信息;其次,为了使文本建模过程更加具有普适性,使用BERT提取预训练的评论文本特征;然后,使用卷积神经网络(CNN)进行深层次的文本特征提取;最后,为了将两种不同的信息融合起来,讨论了两种不同的融合方式。在亚马逊电影评论(Amazon MovieandTV)和CD评论(CDsandVinyl5)两个数据集上的实验结果表明,所提出的方法在精确率评价指标上较对比方法提高了4%~5%。 展开更多
关键词 作者身份识别 目标依赖 卷积神经网络 信息融合 预训练语言模型
下载PDF
诗人密码:唐诗作者身份识别 被引量:2
5
作者 周爱 桑晨 +1 位作者 张益嘉 鲁明羽 《中文信息学报》 CSCD 北大核心 2022年第6期162-170,共9页
作者身份识别是对作者个人写作风格的分析。虽然这一任务在多种语言中都得到了广泛的研究,但对中文而言,研究还没有涉及古典诗歌领域。唐诗同时具有跳跃性和整体性,为了兼顾这两种特点,该文提出了一种双通道的Cap-Transformer集成模型... 作者身份识别是对作者个人写作风格的分析。虽然这一任务在多种语言中都得到了广泛的研究,但对中文而言,研究还没有涉及古典诗歌领域。唐诗同时具有跳跃性和整体性,为了兼顾这两种特点,该文提出了一种双通道的Cap-Transformer集成模型。上通道Capsule模型可以在提取特征的同时降低信息损失,能够更好地捕获唐诗各个意象的语义特征;下通道Transformer模型通过多头自注意力机制充分学习唐诗所有意象共同反映的深层语义信息。实验表明,该文提出的模型适用于唐诗作者身份识别任务,并通过错误分析,针对唐诗文本的特殊性,讨论了唐诗作者身份识别任务目前存在的问题及未来的研究方向和面临的挑战。 展开更多
关键词 作者身份识别 古典诗词 胶囊网络 TRANSFORMER
下载PDF
《全唐诗》作者身份识别研究 被引量:1
6
作者 肖慧慧 杨斌 刘智 《信息与电脑》 2020年第9期32-35,共4页
随着《诗词大会》的播出,越来越多的人开始对中国的古诗进行深入研究。由于有些古诗的作者尚不明确,这就需要对古诗的作者身份进行识别研究。作者身份识别存在以下问题:一是随着作者数量的增多,识别准确率下降;二是文本研究是由专家、... 随着《诗词大会》的播出,越来越多的人开始对中国的古诗进行深入研究。由于有些古诗的作者尚不明确,这就需要对古诗的作者身份进行识别研究。作者身份识别存在以下问题:一是随着作者数量的增多,识别准确率下降;二是文本研究是由专家、学者人工提取特征,比较复杂。就以上问题,笔者提出创建CTGRU模型。实验结果表明,本文提出的分类方法能够更准确地区分作者。 展开更多
关键词 自然语言处理 作者身份识别 卷积神经网络 TRANSFORMER GRU
下载PDF
基于深度学习的中文微博作者身份识别研究 被引量:5
7
作者 徐晓霖 蔡满春 芦天亮 《计算机应用研究》 CSCD 北大核心 2020年第1期16-18,25,共4页
作者身份识别一直在公安行业和文检工作中起着重要的作用。现有的作者语言风格建模过程繁琐、文本特征工程没有普适性。针对此问题,在无须专家进行特征建模的情况下,提出CABLSTM中文微博作者身份识别模型,并在公开微博语料集测试该模型... 作者身份识别一直在公安行业和文检工作中起着重要的作用。现有的作者语言风格建模过程繁琐、文本特征工程没有普适性。针对此问题,在无须专家进行特征建模的情况下,提出CABLSTM中文微博作者身份识别模型,并在公开微博语料集测试该模型准确度。该模型为最大化提取短文本特征,融合attention机制于CNN中并去除池化层,通过双向LSTM以获取上下文相关信息,身份识别结果通过softmax层进行输出。实验结果表明,该模型在进行中文微博作者身份识别任务中与传统机器学习算法、Text CNN和LSTM算法相对比,在准确率、召回率、F值方面都有一定的提升。 展开更多
关键词 作者身份识别 长短时记忆网络 卷积神经网络 特征自动提取
下载PDF
基于今日头条数据的作者身份识别方法研究
8
作者 李开元 《科技创新导报》 2019年第11期146-147,149,共3页
在大数据时代,随着机器创作者越来越有创意,今后媒体上将会产生越来越多的机器创作者自动生产的内容。在复杂的新闻报道、文学作品、用户评论中有效识别人类作者的作品以及机器作者的作品非常重要。所以本文提出作者身份识别方法,通过... 在大数据时代,随着机器创作者越来越有创意,今后媒体上将会产生越来越多的机器创作者自动生产的内容。在复杂的新闻报道、文学作品、用户评论中有效识别人类作者的作品以及机器作者的作品非常重要。所以本文提出作者身份识别方法,通过深入观察和分析,发现机器作者在词汇特征、句法特征、语义特征和发布设备等4个方面存在显著差异,并对这4个维度的特征进行深入分析,进行特征选择,使用筛选出来的特征构建作者身份识别模型。 展开更多
关键词 作者身份识别 机器用户 大数据
下载PDF
基于核心主题特征的作者身份识别研究
9
作者 孟旭 谢靖 李春旺 《知识管理论坛》 2023年第5期351-364,共14页
[目的/意义]以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,利用Word2vec补充主题模型获取主题特征的不足,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识... [目的/意义]以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,利用Word2vec补充主题模型获取主题特征的不足,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识别中的使用效果。[方法/过程]首先利用LDA主题模型抽取候选作者的学术主题和社交主题,然后利用Word2vec制定合并筛选策略进行核心主题的识别和表示,最后结合N-gram特征和相似度计算的办法实现作者识别。[结果/结论]利用核心主题特征对科研人员社交文本进行作者识别有一定的积极作用,同时本研究提出的核心主题特征相关策略和应用也能优化主题特征的使用效果,将其结合文体风格特征应用于作者识别,最高识别率达到83%。 展开更多
关键词 作者身份识别 主题特征 N-GRAM 科研作者 社交网络文本
原文传递
作者身份识别中新奇检测方法研究
10
作者 郭旭 祁瑞华 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第4期56-62,共7页
【目的】实现作者身份识别研究领域的新奇检测。【方法】采用单分类支持向量机或多元高斯算法结合多层面文体特征模型的方法,并提出一种基于宽容度的阈值选择方法。【结果】当样本字符数大于500时,准确率、召回率和F1值均可达到0.9以上... 【目的】实现作者身份识别研究领域的新奇检测。【方法】采用单分类支持向量机或多元高斯算法结合多层面文体特征模型的方法,并提出一种基于宽容度的阈值选择方法。【结果】当样本字符数大于500时,准确率、召回率和F1值均可达到0.9以上,其中样本字符数达到2 000时,准确率、召回率和F1值分别为0.978、0.984和0.979。【局限】对于短文本的检测效果有待提高,需进一步优化特征模型。【结论】本文提出的方法可以有效解决作者身份识别中长文本的新奇检测问题。 展开更多
关键词 作者身份识别 新奇检测 异常点检测
原文传递
面向唐诗作者风格画像的知识组织与验证
11
作者 周爱 鲁明羽 《情报科学》 北大核心 2023年第10期136-147,共12页
【目的/意义】唐诗作者风格要素知识组织是为智能实现唐诗作者风格画像提供知识服务的,是机器识别唐诗作者身份的重要突破,能够为数字人文研究文献辑佚和文化传播提供支撑。【方法/过程】本文首先梳理了语言风格学相关理论和传统人文领... 【目的/意义】唐诗作者风格要素知识组织是为智能实现唐诗作者风格画像提供知识服务的,是机器识别唐诗作者身份的重要突破,能够为数字人文研究文献辑佚和文化传播提供支撑。【方法/过程】本文首先梳理了语言风格学相关理论和传统人文领域专家学者们关于唐诗风格的品鉴方法和策略,以及数字人文唐诗研究形成的语料库和检索平台;其次,根据专家提供的领域知识和唐诗文本自身的特点,构建了唐诗风格要素系统框架;在此基础上,面向唐诗作者风格画像需求,从作者基本属性要素知识、文体风格特征要素知识和价值属性要素知识三个维度进行了详细分析,给出了不同层面的知识组织。【结果/结论】通过选取知识组织中的要素知识进行了适用性验证,结果表明,不同维度的要素知识能够实现相应画像侧写。【创新/局限】研究发现:唐诗作为古文献进行数字化研究涉及的理论和领域知识较多,以及对机器识别与人工识别的区别认识不足等因素,造成研究具有一定的局限性。 展开更多
关键词 知识组织 语言风格学 唐诗作者风格画像 唐诗风格要素系统框架 作者身份识别
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部