期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于外部知识筛选的主题文本生成技术研究 被引量:1
1
作者 王沛 杨频 +2 位作者 程芃森 代金鞘 贾鹏 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期69-77,共9页
在自然语言生成任务中,主题文本生成是一项富有挑战性的工作,其主要难点在于:源信息量远小于目标生成的信息量.为了解决该问题,本文提出一个基于外部知识筛选的主题文本生成模型Trans-K,通过引入与主题词相关的外部知识来丰富源信息,进... 在自然语言生成任务中,主题文本生成是一项富有挑战性的工作,其主要难点在于:源信息量远小于目标生成的信息量.为了解决该问题,本文提出一个基于外部知识筛选的主题文本生成模型Trans-K,通过引入与主题词相关的外部知识来丰富源信息,进而提高生成文本的质量.本文为了解决引入外部知识的“一词多义”问题,提出一种基于线性变换的主题向量计算方法,用于筛选和主题词语义一致的外部知识;提出一种基于注意力机制的外部权重计算方法,为每个外部词设定一个主题权重,使其更贴合文本语义;为了解决主题词(含候选词)在生成文本中反复出现的问题,提出一种基于多头注意力机制的内部权重计算方法.在EASSY数据集上的实验表明,与基线相比,Trans-K生成文本质量的各项指标更优.此外,人类评估表明,该模型可生成与主题更相关、语言更连贯、且符合语义逻辑的文本. 展开更多
关键词 自然语言生成 主题文本生成 TRANSFORMER HOWNET 知识增强
下载PDF
基于密集连接卷积神经网络的远程监督关系抽取 被引量:8
2
作者 钱小梅 刘嘉勇 程芃森 《计算机科学》 CSCD 北大核心 2020年第2期157-162,共6页
密集连接卷积神经网络(DenseNet)是一种新型深度卷积神经网络架构,通过建立不同层间的连接关系,来确保网络层与层间最大程度的信息传输。在文本远程监督关系抽取任务中,针对现有神经网络方法使用浅层网络提取特征的局限,设计了一种基于... 密集连接卷积神经网络(DenseNet)是一种新型深度卷积神经网络架构,通过建立不同层间的连接关系,来确保网络层与层间最大程度的信息传输。在文本远程监督关系抽取任务中,针对现有神经网络方法使用浅层网络提取特征的局限,设计了一种基于密集连接方式的深度卷积神经网络模型。该模型采用五层卷积神经网络构成的密集连接模块和最大池化层作为句子编码器,通过合并不同层次的词法、句法和语义特征,来帮助网络学习特征,从而获取输入语句更丰富的语义信息,同时减轻深度神经网络的梯度消失现象,使得网络对自然语言的表征能力更强。模型在NYT-Freebase数据集上的平均准确率达到了82.5%,PR曲线面积达到了0.43。实验结果表明,该模型能够有效利用特征,并提高远程监督关系抽取的准确率。 展开更多
关键词 深度学习 关系抽取 远程监督 卷积神经网络 密集连接
下载PDF
基于特征词群的新闻类重复网页和近似网页识别算法
3
作者 程芃森 安俊秀 《成都信息工程学院学报》 2012年第4期374-379,共6页
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取... 新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高。 展开更多
关键词 计算机应用 网页消重 词性分类 特征词群
下载PDF
基于最优路径策略方法快速计算字符串编辑距离 被引量:1
4
作者 王远超 安俊秀 +1 位作者 程芃森 王鹏 《成都信息工程学院学报》 2014年第6期616-624,共9页
传统编辑距离算法采用动态规划方法用一个维度大小分别为源字符串长度和目标字符串长度的二维数组保存计算过程中求得编辑距离值。这种传统求解方式在时间效率和空间效率上开销较大,限制了编辑距离算法在长字符串中地应用。针对传统方... 传统编辑距离算法采用动态规划方法用一个维度大小分别为源字符串长度和目标字符串长度的二维数组保存计算过程中求得编辑距离值。这种传统求解方式在时间效率和空间效率上开销较大,限制了编辑距离算法在长字符串中地应用。针对传统方法存在的问题,经深入研究编辑距离的求解过程,发现在某个关键区域内存在一条最优路径,通过确定最优路径所在关键区域可以快速地求解两字符串之间的编辑距离值。实验表明,方法在计算两字符串之间的编辑距离与传统方法相比可以降低问题的求解规模,提高算法的时间效率和空间效率。所描述的方法同样适用于图论中使用动态规划方法求解一般问题地应用,比如最优分配问题和背包问题等。 展开更多
关键词 计算机软件与理论 大数据技术 编辑距离 相似度 最优路径 关键区域 动态规划
下载PDF
基于增强BiLSTM-CRF模型的推文恶意软件名称识别 被引量:6
5
作者 古雪梅 刘嘉勇 +1 位作者 程芃森 何祥 《计算机科学》 CSCD 北大核心 2020年第2期245-250,共6页
针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别。在BiLSTM-CRF模型的基础上,利用BERT模... 针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别。在BiLSTM-CRF模型的基础上,利用BERT模型编码单词语境信息,提升词嵌入的上下文语义质量,增强原有模型的语义消歧能力;同时,借助Self-attention机制学习单词间关系和句子结构特征,利用加权表征帮助单一类别实体的解码,以提升恶意软件名称实体的识别效果。通过构建包含恶意软件名称实体的推文标记数据集进行实验测试,结果表明,提出的方法可以实现更好的性能,其精确率、召回率、F1值分别为86.38%,84.73%,85.55%,相较于基线模型BiLSTM-CRF,F1值提升了12.61%。 展开更多
关键词 恶意软件名称识别 实体消歧 动态词嵌入 类别不均 重要性加权
下载PDF
基于特征提取的恶意软件行为及能力分析方法研究 被引量:6
6
作者 冯胥睿瑞 刘嘉勇 程芃森 《信息网络安全》 CSCD 北大核心 2019年第12期72-78,共7页
为应对恶意软件对网络空间安全的威胁,安全厂商发布了大量恶意软件报告,其中蕴含着许多网络安全相关信息,如恶意软件的特征能力及其所采取的具体行为模式。通过对这些恶意软件报告进行分析获取相关信息,有助于研究人员全面了解恶意软件... 为应对恶意软件对网络空间安全的威胁,安全厂商发布了大量恶意软件报告,其中蕴含着许多网络安全相关信息,如恶意软件的特征能力及其所采取的具体行为模式。通过对这些恶意软件报告进行分析获取相关信息,有助于研究人员全面了解恶意软件功能,实现有效防御。自动从报告中抽取与恶意软件能力及行为相关的文本的任务,存在报告数量庞大、文本结构松散、一词多义的问题。为此,文章提出基于Bert预训练模型获取特征向量的方法,以实现对多义词的消歧,通过BiLSTM和注意力机制进一步提取特征,训练分类器。利用MalwareTextDB数据集进行实验,召回率和F1值分别可达到85.56%和66.67%。与其他模型进行比较,该模型能够更高效地自动从恶意软件报告中提取与恶意软件行为特征及能力相关文本。 展开更多
关键词 恶意软件 文本分类 BERT BiLSTM 注意力机制
下载PDF
基于局部对抗训练的命名实体识别方法研究 被引量:4
7
作者 李静 程芃森 +1 位作者 许丽丹 刘嘉勇 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第2期107-114,共8页
命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量... 命名实体识别研究中,数据集内普遍存在实体与非实体,实体内部类别间边界样本混淆的问题,极大地影响了命名实体识别方法的性能.提出以BiLSTM-CRF为基线模型,结合困难样本筛选与目标攻击对抗训练的命名实体识别方法.该方法筛选出包含大量边界样本的困难样本,利用边界样本易被扰动偏离正确类别的特性,采用按照混淆矩阵错误概率分布的目标攻击方法,生成对抗样本用于对抗训练,增强模型对混淆边界样本的识别能力.为验证该方法的优越性,设计非目标攻击方式的全局、局部对抗训练方法与目标攻击全局对抗训练方法作为对比实验.实验结果表明,该方法提高了对抗样本质量,保留了对抗训练的优势,在JNLPBA、MalwareTextDB、Drugbank三个数据集上F1值分别提升1.34%、6.03%、3.65%. 展开更多
关键词 命名实体识别 对抗训练 困难样本 目标攻击
下载PDF
基于关键词主题控制的文本生成技术研究
8
作者 李思雨 程芃森 刘嘉勇 《信息与电脑》 2022年第6期24-28,35,共6页
深度学习技术的发展使得基于深度神经网络的方法成为自然语言处理(Natural Language Processing,NLP)领域的一种新解决思路。虽然神经网络技术能够有效提升生成文本的质量,但是生成文本的内容很容易偏离作者原本要表达的语义。笔者按照... 深度学习技术的发展使得基于深度神经网络的方法成为自然语言处理(Natural Language Processing,NLP)领域的一种新解决思路。虽然神经网络技术能够有效提升生成文本的质量,但是生成文本的内容很容易偏离作者原本要表达的语义。笔者按照人们的写作习惯,即先构思出各部分的主题再进行写作的方式,提出基于交叉项编码的关键词主题控制文本生成模型。与其他模型相比,该模型生成的句子不仅在双语互译质量评估(Bilingual Evaluation Understudy,BLEU)中的得分更高,Correlation值也要高于其他模型。 展开更多
关键词 文本生成 交叉项编码 NLP 主题控制
下载PDF
基于情感复写的中文文本情感迁移方法
9
作者 曾泽宇 程芃森 杨频 《现代计算机》 2021年第35期64-69,共6页
文本情感迁移可将文本转化为具有目标情感属性的文本,同时能保留语句原始的内容。目前,大多数文本情感迁移技术采用了基于情感分离的方法,由于缺乏平行语料、造成情感和非情感内容难以有效分离,无法准确实现情感迁移。在该项任务中少有... 文本情感迁移可将文本转化为具有目标情感属性的文本,同时能保留语句原始的内容。目前,大多数文本情感迁移技术采用了基于情感分离的方法,由于缺乏平行语料、造成情感和非情感内容难以有效分离,无法准确实现情感迁移。在该项任务中少有针对中文的研究。本文在CycleGAN(cycle generative adversarial net⁃works)的基础上,利用Transformer模型的注意力机制自动提取句子的情感特征,通过情感复写的方法实现了中文文本情感迁移任务,实现了一步策略,即无需情感和非情感内容分离。实验结果显示,该模型达到了良好的效果,生成语句的质量也接近人类水平。 展开更多
关键词 情感迁移 复写 CycleGAN 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部