期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
服务于拼写检查的伪语料生成方法实现
1
作者 胡睿 《数字技术与应用》 2021年第1期177-179,共3页
大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中... 大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中文母语者进行文字录入时出现的错误分布不同,使其难以直接在面向中文出版行业的应用中使用。本文提出一种基于中文维基语料,自动生成包含错误拼写的伪语料的方法,使用伪语料进行训练,相对于直接使用训练集数据,模型获得了提升,并且基于伪语料训练的模型在现实语料中取得了较好的效果。 展开更多
关键词 伪语料生成 中文拼写检查 编辑距离
下载PDF
语言知识驱动的词嵌入向量的可解释性研究 被引量:2
2
作者 林星星 邱晓枫 +3 位作者 刘扬 虞梦夏 祁晶 康司辰 《中文信息学报》 CSCD 北大核心 2020年第8期1-9,共9页
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分... 神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论:语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。 展开更多
关键词 可解释性 词嵌入向量 伪语料
下载PDF
基于对比注意力机制的跨语言句子摘要系统 被引量:8
3
作者 殷明明 史小静 +1 位作者 俞鸿飞 段湘煜 《计算机工程》 CAS CSCD 北大核心 2020年第5期86-93,共8页
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机... 当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机器翻译系统翻译成另一种语言,将其与句子摘要平行语料中目标端的摘要短语共同构成跨语言的伪平行语料。在此基础上,利用对比注意力机制,实现目标端与源端序列中不相关信息的获取,解决了传统注意力机制中源端和目标端句子长度不匹配的问题。实验结果表明,与基于管道方法的单语句子摘要系统相比,该跨语言系统生成的摘要短语更流畅且符合人类语言表述方式,可达到接近单语的句子摘要水平。 展开更多
关键词 跨语言句子摘要 平行语料 伪语料 对比注意力机制 管道方法
下载PDF
基于上下文翻译的有监督词义消歧研究 被引量:11
4
作者 杨陟卓 《计算机科学》 CSCD 北大核心 2017年第4期252-255,280,共5页
针对目前有监督词义消歧方法存在的数据稀疏问题,提出一种基于上下文翻译的词义消歧方法。该方法假设由歧义词上下文的译文所组成的语境与原上下文语境所表述的意义相似。根据此假设,首先,将译文所组成的上下文生成大量的伪训练语料;然... 针对目前有监督词义消歧方法存在的数据稀疏问题,提出一种基于上下文翻译的词义消歧方法。该方法假设由歧义词上下文的译文所组成的语境与原上下文语境所表述的意义相似。根据此假设,首先,将译文所组成的上下文生成大量的伪训练语料;然后,利用真实训练语料和伪训练语料训练一个贝叶斯消歧模型;最后,利用该消歧模型决策歧义词的词义。实验结果表明,与传统的消歧方法相比,所提出的方法消歧准确率提高了4.35%,并且超过了参加SemEval-2007测评的最好的有监督消歧系统。 展开更多
关键词 词义消歧 上下文扩充 机器翻译 训练语料 贝叶斯模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部