期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
大语言模型的中文文本简化能力研究
1
作者 杨尔弘 朱君辉 +2 位作者 朱浩楠 宗绪泉 杨麟儿 《语言战略研究》 北大核心 2024年第5期34-47,共14页
大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词... 大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+词表和少样本+规则这4种提示策略,综合已有的和本研究特有的语言特征评估指标,测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现,少样本提示策略在文本特征上表现最佳,显著提高了信息保存度;在提示中加入外部词表,有助于大语言模型使用相对简单的词语;在提示中融入简化规则,能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限,但在语篇衔接与连贯和段落划分上与人类专家存在明显差距,且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集,多角度诱导语言大模型的文本简化能力。 展开更多
关键词 中文文本简化 大语言模型 语言特征分析
下载PDF
大模型生成回答与人类回答文本的语言特征比较研究
2
作者 朱君辉 王梦焰 +3 位作者 杨尔弘 聂锦燃 杨麟儿 王誉杰 《中文信息学报》 CSCD 北大核心 2024年第4期17-27,共11页
近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3293个问题的回答作为语料,对两种语... 近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。 展开更多
关键词 ChatGPT 人类语言 语言特征 机器学习
下载PDF
高频术语视角下计算机辅助语言学习领域的热点研究 被引量:2
3
作者 朱君辉 王晓菀 《中国科技术语》 2023年第3期72-87,共16页
自20世纪60年代以来,计算机辅助语言学习作为信息技术与语言学的交叉领域,取得了迅速发展,呈现出多元化的趋势,同时也涌现出大量术语。文章基于数据驱动的方法,以Web of Science数据库收录的SSCI期刊中2015—2022年间发表的关于计算机... 自20世纪60年代以来,计算机辅助语言学习作为信息技术与语言学的交叉领域,取得了迅速发展,呈现出多元化的趋势,同时也涌现出大量术语。文章基于数据驱动的方法,以Web of Science数据库收录的SSCI期刊中2015—2022年间发表的关于计算机辅助语言学习的1034篇文献作为数据源,运用文献分析工具CiteSpace对高频被引文献及高频关键词术语进行可视化分析,从术语角度对计算机辅助语言学习领域的研究热点及未来发展趋势进行概括与分析,以期勾勒出当前国际计算机辅助语言学习领域研究的整体轮廓。通过分析发现,近8年该领域主要围绕计算机网络技术应用、计算机辅助语言学习与语言习得、计算机辅助语言学习与教学3个主题展开。 展开更多
关键词 计算机辅助语言学习 高频术语 研究热点
下载PDF
基于数据选择和局部伪标注的跨领域语义依存分析研究
4
作者 毛达展 喻快 邵艳秋 《中文信息学报》 CSCD 北大核心 2023年第6期15-24,共10页
语义依存分析要走向实用,模型从单领域迁移到其他领域的领域适应能力至关重要。近年来,对抗学习针对领域适应任务取得了较好的效果,但对目标领域的无标注数据利用率并不高。该文使用自训练方法用来提高无标注数据的利用效率,弥补对抗学... 语义依存分析要走向实用,模型从单领域迁移到其他领域的领域适应能力至关重要。近年来,对抗学习针对领域适应任务取得了较好的效果,但对目标领域的无标注数据利用率并不高。该文使用自训练方法用来提高无标注数据的利用效率,弥补对抗学习方法的不足。但传统的自训练方法效率和性能并不好,为此该文针对跨领域语义依存分析任务,尝试强化学习数据选择器,提出了局部伪标注的标注策略,实验结果证明,该文所提出的模型优于基线模型。 展开更多
关键词 语义依存分析 领域适应 自训练方法
下载PDF
汉语增强依存句法自动转换研究
5
作者 余婧思 师佳璐 +2 位作者 杨麟儿 肖丹 杨尔弘 《中文信息学报》 CSCD 北大核心 2023年第10期26-33,共8页
在斯坦福基础依存句法规范的基础上,该文研制了汉语增强依存句法规范,主要贡献在于:介词和连词的增强、并列项的传播、句式转换和特殊句式的增强。此外,该文提供了基于Python的汉语增强依存句法转换的转换器,以及将句子从基础依存句法... 在斯坦福基础依存句法规范的基础上,该文研制了汉语增强依存句法规范,主要贡献在于:介词和连词的增强、并列项的传播、句式转换和特殊句式的增强。此外,该文提供了基于Python的汉语增强依存句法转换的转换器,以及将句子从基础依存句法树通过所提规范解析成依存图的Web演示。最后,该文探索了增强依存句法的实际应用,并以搭配抽取和信息抽取为例进行相关讨论。 展开更多
关键词 依存句法 汉语增强依存句法 自动转换
下载PDF
句式结构树库的自动构建研究
6
作者 谢晨晖 胡正升 +2 位作者 杨麟儿 廖田昕 杨尔弘 《中文信息学报》 CSCD 北大核心 2023年第2期15-25,共11页
句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研... 句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研究的问题。人工标注句法树库费时费力,树库质量也难以保证,为此,该文尝试通过规则的方法,将宾州中文树库(CTB)转换为句式结构树库,从而扩大现有句式结构树库的规模。实验结果表明,该文提出的基于树库转换规则的方法是有效的。 展开更多
关键词 句式结构 短语结构 树库构建
下载PDF
中文句子级性别无偏数据集构建及预训练语言模型的性别偏度评估
7
作者 赵继舜 杜冰洁 +1 位作者 刘鹏远 朱述承 《中文信息学报》 CSCD 北大核心 2023年第9期15-22,共8页
在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏... 在自然语言处理领域各项任务中,模型广泛存在性别偏见。然而,当前尚无中文性别偏见评估和消偏的相关数据集,因此无法对中文自然语言处理模型中的性别偏见进行评估。首先,该文根据16对性别称谓词,从一个平面媒体语料库中筛选出性别无偏的句子,构建了一个含有20000条语句的中文句子级性别无偏数据集SlguSet(Sentence-Level Gender Unbiased Dataset)。随后,该文提出了一个可衡量预训练语言模型性别偏见程度的指标,并对5种流行的预训练语言模型中的性别偏见进行评估。结果表明,中文预训练语言模型中存在不同程度的性别偏见,该文所构建数据集能够很好地对中文预训练语言模型中的性别偏见进行评估。 展开更多
关键词 性别偏见 数据集 预训练语言模型
下载PDF
汉语语法点特征及其在二语文本难度自动分级研究中的应用 被引量:4
8
作者 朱君辉 刘鑫 +2 位作者 杨麟儿 王鸿滨 杨尔弘 《语言文字应用》 CSSCI 北大核心 2022年第3期87-99,共13页
汉语二语文本难度自动分级任务是国际中文教育与计算语言学领域中的一个重要主题。本文依据《国际中文教育中文水平等级标准》,提出了基于语法点多样性与复杂性的25个语法点特征并实现了相关特征的自动抽取与计算,在此基础上构建了自动... 汉语二语文本难度自动分级任务是国际中文教育与计算语言学领域中的一个重要主题。本文依据《国际中文教育中文水平等级标准》,提出了基于语法点多样性与复杂性的25个语法点特征并实现了相关特征的自动抽取与计算,在此基础上构建了自动分级模型。实验结果表明,融合语法点特征后多元逻辑回归算法的分级准确率为86.40%,比基于现有语言特征的实验提升了2.4%。进一步研究发现,六级语法点多样性、语法点难度等级均值是区别文章难度级别的关键特征。此外,本文将包含语法点特征在内的207项语言特征融入基于BERT的深度学习模型,取得了87.6%的准确率,超过了基于传统语言特征的方法和基于神经网络的方法。 展开更多
关键词 语法点特征 汉语作为第二语言教学研究 文本难度 自动分级
下载PDF
面向汉语作为第二语言学习的个性化语法纠错 被引量:3
9
作者 张生盛 庞桂娜 +4 位作者 杨麟儿 王辰成 杜永萍 杨尔弘 黄雅平 《中文信息学报》 CSCD 北大核心 2021年第12期28-35,共8页
语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习... 语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习者,提出个性化语法纠错,对不同特征的学习者所犯的错误分别进行纠正,并构建了不同领域汉语学习者的数据集进行实验。实验结果表明,将语法纠错模型适应到学习者的各个领域后,性能得到明显提升。 展开更多
关键词 语法纠错 个性化 汉语学习者 领域适应
下载PDF
基于语料库的我国职业性别无意识偏见共时历时研究 被引量:2
10
作者 朱述承 苏祺 刘鹏远 《中文信息学报》 CSCD 北大核心 2021年第5期130-140,共11页
性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的... 性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。 展开更多
关键词 语料库 职业 性别 无意识偏见 标记理论
下载PDF
小样本关系分类研究综述 被引量:4
11
作者 胡晗 刘鹏远 《中文信息学报》 CSCD 北大核心 2022年第2期1-11,共11页
关系分类作为构建结构化知识的重要一环,在自然语言处理领域备受关注。但在很多应用领域中(如医疗、金融等领域)收集充足的用于训练关系分类模型的数据十分困难。近年来,仅需要少量训练样本的小样本学习逐渐应用于关系分类研究中。该文... 关系分类作为构建结构化知识的重要一环,在自然语言处理领域备受关注。但在很多应用领域中(如医疗、金融等领域)收集充足的用于训练关系分类模型的数据十分困难。近年来,仅需要少量训练样本的小样本学习逐渐应用于关系分类研究中。该文对近期小样本关系分类模型与方法进行了系统的综述。根据度量方法的不同,将现有方法分为原型式和分布式两大类。根据是否利用额外信息,将模型分为预训练和非预训练两大类。此外,除了常规设定下的小样本学习,该文还梳理了跨领域和稀缺资源场景下的小样本学习,探讨了目前小样本关系分类方法的局限性,并分析了跨领域小样本学习面临的技术挑战。最后,展望了小样本关系分类未来的发展方向。 展开更多
关键词 关系分类 小样本学习 元学习
下载PDF
多目标情感分类中文数据集构建及分析研究 被引量:2
12
作者 刘鹏远 田永胜 +1 位作者 杜成玉 邱立坤 《中文信息学报》 CSCD 北大核心 2021年第6期30-38,共9页
目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中... 目标级情感分类任务是为了得到句子中特定评价目标的情感倾向。一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致。但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例。数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间。针对以上问题,该文构建了一个针对多目标情感分类的中文数据集,人工标注了6339个评价目标,共2071条数据。该数据集具备以下特点:①评价目标个数分布平衡;②情感正负极性分布平衡;③多目标情感倾向分布平衡。随后,该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析。结果表明,现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类,尤其是目标的情感倾向为中性时。因此多目标情感分类任务具有一定的难度与挑战性。 展开更多
关键词 目标级情感分类 中文数据集 多目标
下载PDF
半监督跨领域语义依存分析技术研究 被引量:1
13
作者 毛达展 李华勇 邵艳秋 《中文信息学报》 CSCD 北大核心 2022年第2期22-28,共7页
近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降。因此为了使其走向实用,就必须解决领域适应问题。该文提出一... 近年来,尽管深度学习给语义依存分析带来了长足的进步,但由于语义依存分析数据标注代价非常高昂,并且在单领域上性能较好的依存分析器迁移到其他领域时,其性能会大幅度下降。因此为了使其走向实用,就必须解决领域适应问题。该文提出一个新的基于对抗学习的领域适应依存分析模型,该模型基于对抗学习的共享双编码器结构,并引入领域私有辅助任务和正交约束,同时也探究了多种预训练模型在跨领域依存分析任务上的效果和性能。 展开更多
关键词 语义依存分析 领域适应 对抗学习
下载PDF
基于计量的百年中国人名用字性别特征研究 被引量:1
14
作者 杜冰洁 刘鹏远 田永胜 《中文信息学报》 CSCD 北大核心 2022年第1期145-153,共9页
该文构建了一个包含11万以上条目规模的中国名人人名数据库,每条数据含有人名、性别、出生地等社会文化标签,同时含有拼音、笔画、偏旁等文字信息标签。基于数据库,该文从中选择1919年至今的人名,用定性与定量结合的方法探究人名中汉字... 该文构建了一个包含11万以上条目规模的中国名人人名数据库,每条数据含有人名、性别、出生地等社会文化标签,同时含有拼音、笔画、偏旁等文字信息标签。基于数据库,该文从中选择1919年至今的人名,用定性与定量结合的方法探究人名中汉字的特征及其性别差异,以及历时变化。从人名长度来看,男性人名比女性人名长;从人名用字的难易度来看,女性用字比男性更复杂;从用字丰富度来看,人名用字越来越单一和集中化,男性人名的用字丰富度大于女性人名。计算人名用字的性别偏度后发现女性人名的专用字更多。两性用字意象有明显不同,用字的意象随着时间发生改变,但改变最明显的时间节点是改革开放前后,其中女性用字变化比男性显著。除此之外,该文还得出人名中的性别极性字表、各个阶段的高频字表、用字变化趋势表等。 展开更多
关键词 中国人名数据库 汉字性别差异 人名历时变化
下载PDF
现代汉语副词的语义指向研究综述
15
作者 卢涌 《黄冈师范学院学报》 2016年第4期83-87,共5页
现代汉语副词的语义指向研究是语义指向研究的重要组成部分,也一直是汉语学界关注的焦点。对副词的语义指向研究状况作一大致的回顾和述评,主要从两个方面展开:一就一类副词进行的语义指向研究;二就某个副词进行的语义指向研究。并在此... 现代汉语副词的语义指向研究是语义指向研究的重要组成部分,也一直是汉语学界关注的焦点。对副词的语义指向研究状况作一大致的回顾和述评,主要从两个方面展开:一就一类副词进行的语义指向研究;二就某个副词进行的语义指向研究。并在此基础上指出研究的不足以及今后的研究方向。 展开更多
关键词 现代汉语 副词 语义指向 综述
下载PDF
基于片段预测的词汇约束文本生成
16
作者 聂锦燃 杨麟儿 杨尔弘 《中文信息学报》 CSCD 北大核心 2023年第8期150-158,共9页
词汇约束文本生成是自然语言处理领域的重要研究任务之一,旨在给定一组有序词汇,生成包含这些词汇的流畅文本,在语言教学、文本生成、信息检索等领域有广泛应用。现有的生成方法存在生成速度慢、无法包含所有约束词等问题,难以满足实际... 词汇约束文本生成是自然语言处理领域的重要研究任务之一,旨在给定一组有序词汇,生成包含这些词汇的流畅文本,在语言教学、文本生成、信息检索等领域有广泛应用。现有的生成方法存在生成速度慢、无法包含所有约束词等问题,难以满足实际应用需求。该文提出一种基于片段预测的端到端词汇受限文本生成方法,将词汇约束文本生成视为对约束词之间的文本片段的预测,利用基于二维位置编码的预训练语言模型预测所有片段,再将其填充回约束词的对应位置,从而保证了生成速度和词汇约束;利用词性标注方式构造多参考数据进行数据增强,进一步提升了文本生成质量。为验证方法的有效性,该文在公开的英文数据集,以及基于国际中文教材构建的中文数据集上进行了实验,结果表明,该文提出的LCTG-SP方法可以满足所有词汇约束、具有较快生成速度,生成文本的流利度和多样性表现更好。本文中的模型代码和数据开源在GitHub上①。 展开更多
关键词 词汇约束 片段预测 文本生成 数据增强
下载PDF
汉语中介语的依存句法标注规范及标注实践 被引量:4
17
作者 肖丹 杨尔弘 +2 位作者 张明慧 陆天荧 杨麟儿 《中文信息学报》 CSCD 北大核心 2020年第11期19-28,36,共11页
汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步... 汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。 展开更多
关键词 汉语中介语 依存句法 标注规范
下载PDF
汉语学习者依存句法树库构建 被引量:1
18
作者 师佳璐 罗昕宇 +6 位作者 杨麟儿 肖丹 胡正升 王一君 袁佳欣 余婧思 杨尔弘 《中文信息学报》 CSCD 北大核心 2022年第1期39-46,共8页
汉语学习者依存句法树库为非母语者语料提供依存句法分析,对第二语言教学与研究,以及面向第二语言的句法分析、语法改错等相关研究有重要意义。然而,现有的汉语学习者依存句法树库数量较少,且在标注方面仍存在一些问题。为此,该文提出... 汉语学习者依存句法树库为非母语者语料提供依存句法分析,对第二语言教学与研究,以及面向第二语言的句法分析、语法改错等相关研究有重要意义。然而,现有的汉语学习者依存句法树库数量较少,且在标注方面仍存在一些问题。为此,该文提出一个依存句法标注规范,搭建在线标注平台,并开展汉语学习者依存句法标注。该文重点介绍了数据选取、标注流程等问题,并对标注结果进行质量分析,以探索二语偏误对标注质量与句法分析的影响。 展开更多
关键词 汉语学习者 依存句法树库 语料标注 偏误分析 依存句法分析
下载PDF
基于螺旋注意力网络的方面级别情感分析模型 被引量:15
19
作者 杜成玉 刘鹏远 《中文信息学报》 CSCD 北大核心 2020年第9期70-77,共8页
方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种... 方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种建立在BERT表示上的螺旋注意力网络(BHAN)来解决这一问题,模型中的螺旋注意力机制与之前注意力机制不同的是,基于方面词得到加权后的上下文表示后,用这个新的表示计算方面词的权重,然后用这个新的方面词的表示重新计算上下文的权重,如此循环往复,上下文和方面词的表示会得到螺旋式的提高。该文在2014年SemEval任务4和Twitter数据集上进行了模型评估,实验结果表明,其性能超过了之前最佳模型的结果。 展开更多
关键词 螺旋注意力 方面级别情感分析 文本表示
下载PDF
基于门控化上下文感知网络的词语释义生成方法
20
作者 张海同 孔存良 +3 位作者 杨麟儿 何姗 杜永萍 杨尔弘 《中文信息学报》 CSCD 北大核心 2020年第7期105-112,共8页
传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标... 传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标词生成词语释义。该模型基于编码器—解码器架构。编码器首先利用双向GRU对目标词的上下文进行编码,并采用不同的匹配策略进行目标词与上下文的交互,结合注意力机制分别从粗粒度和细粒度两个层次将上下文信息融合到目标词的向量表示中,最终获得目标词在特定语境中的编码向量。解码器则同时基于目标词的语境与语义信息为目标词生成上下文相关的词语释义。此外,通过向模型提供目标词字符级特征信息,进一步提高了生成释义的质量。在英文牛津词典数据集上进行的实验表明,该文提出的方法能够生成易于阅读和理解的词语释义,在释义建模的困惑度和生成释义的BLEU值上分别超出此前模型4.45和2.19,性能有显著提升。 展开更多
关键词 释义生成 GRU 编码器—解码器 注意力机制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部