期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
单步片段标注的实体关系联合抽取模型 被引量:1
1
作者 郑肇谦 韩东辰 赵辉 《计算机工程与应用》 CSCD 北大核心 2023年第9期130-139,共10页
关系抽取作为知识图谱等诸多领域的上游任务,具有广泛应用价值,近年来受到广泛关注。关系抽取模型普遍存在暴露偏差问题,抽取文本普遍存在实体嵌套和实体重叠问题,这些问题严重影响了模型性能。因此,提出了一种基于片段标注的实体关系... 关系抽取作为知识图谱等诸多领域的上游任务,具有广泛应用价值,近年来受到广泛关注。关系抽取模型普遍存在暴露偏差问题,抽取文本普遍存在实体嵌套和实体重叠问题,这些问题严重影响了模型性能。因此,提出了一种基于片段标注的实体关系联合抽取模型(span-labeling based model,SLM),主要包括:将实体关系抽取问题转化为片段标注问题;使用滑动窗口和三种映射策略将词元(token)序列进行组合排列重新平铺成片段(span)序列;使用LSTM和多头自注意力机制进行片段深层语义特征提取;设计了实体关系标签,使用多层标注方法进行关系标签分类。在英文数据集NYT、WebNLG上进行实验,相对于基线模型F1值显著提高,验证了模型的有效性,能有效解决上述问题。 展开更多
关键词 关系抽取 联合抽取 片段标注 映射策略 暴露偏差 实体嵌套 实体重叠
下载PDF
基于ALBERT预训练模型生成式文本摘要 被引量:1
2
作者 许文军 郑虹 郑肇谦 《长春工业大学学报》 CAS 2022年第6期719-725,共7页
针对如何生成更高质量的文本摘要提出一种基于预训练的编码器-解码器框架。该框架可以根据输入序列分两阶段生成输出序列。对于模型的编码器,使用ALBERT将输入序列编码为上下文表示。解码器在第一阶段使用一个基于Transformer的解码器... 针对如何生成更高质量的文本摘要提出一种基于预训练的编码器-解码器框架。该框架可以根据输入序列分两阶段生成输出序列。对于模型的编码器,使用ALBERT将输入序列编码为上下文表示。解码器在第一阶段使用一个基于Transformer的解码器来生成一个草稿输出序列;第二阶段对草稿序列中每个词进行掩码,并将其输入到ALBERT中,然后通过结合输入序列和ALBERT生成的草稿表示,使用基于Transformer的解码器来预测每一个掩码位置的词。在ROUGE上评估了此模型。模型生成的摘要解决了生成摘要不自然的问题,并在LCSTS上取得了很好的效果。 展开更多
关键词 预训练 生成式 文本生成
下载PDF
基于SELC模型的新闻文本分类方法
3
作者 秦硕 郑虹 +1 位作者 侯秀萍 郑肇谦 《长春工业大学学报》 CAS 2022年第3期265-270,共6页
中文长新闻文本的分类问题主要采用截断式提取方法,但是这种方法会大幅降低特征提取的准确性。针对以上问题,文中提出了在文本处理阶段对长文本新闻进行摘要抽取处理,这样既能保留源文本的特征信息,也能降低时间复杂度。使用ERNIE进行... 中文长新闻文本的分类问题主要采用截断式提取方法,但是这种方法会大幅降低特征提取的准确性。针对以上问题,文中提出了在文本处理阶段对长文本新闻进行摘要抽取处理,这样既能保留源文本的特征信息,也能降低时间复杂度。使用ERNIE进行词向量表示,经过自注意力和卷积网络后提高分类任务的准确性。 展开更多
关键词 中文文本分类 摘要抽取 多头注意力机制
下载PDF
融合多种嵌入表示的中文命名实体识别
4
作者 彭雪 赵辉 +1 位作者 郑肇谦 庞海婷 《长春工业大学学报》 CAS 2022年第1期81-90,共10页
融合多种嵌入表示的中文命名实体识别模型FMER-CNER,将百度ERNIE预训练模型生成的字句嵌入与拼音、五笔和四角码嵌入进行融合,得到增强语义特征的融合嵌入表示,再利用BiLSTM-CRF模型进行特征提取和标签解码。模型在MSRA数据集上进行了... 融合多种嵌入表示的中文命名实体识别模型FMER-CNER,将百度ERNIE预训练模型生成的字句嵌入与拼音、五笔和四角码嵌入进行融合,得到增强语义特征的融合嵌入表示,再利用BiLSTM-CRF模型进行特征提取和标签解码。模型在MSRA数据集上进行了对比实验,证明了模型的有效性。 展开更多
关键词 命名实体识别 序列标注 词嵌入 多头注意力机制
下载PDF
注意力机制改进信息增益模型
5
作者 黄思佳 郑虹 郑肇谦 《长春工业大学学报》 CAS 2022年第2期159-163,共5页
针对忽略词性和上下文相关语义对特征选择的影响,建立了基于注意力机制的改进信息增益模型,为特征词引入词性过滤,加入了多头注意力机制。
关键词 特征选择 信息增益 词性 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部