-
题名服务于拼写检查的伪语料生成方法实现
- 1
-
-
作者
胡睿
-
机构
北方工业大学信息学院
-
出处
《数字技术与应用》
2021年第1期177-179,共3页
-
基金
2020年北京市大学生科学研究与创业行动计划项目,来源:北京市教委。
-
文摘
大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中文母语者进行文字录入时出现的错误分布不同,使其难以直接在面向中文出版行业的应用中使用。本文提出一种基于中文维基语料,自动生成包含错误拼写的伪语料的方法,使用伪语料进行训练,相对于直接使用训练集数据,模型获得了提升,并且基于伪语料训练的模型在现实语料中取得了较好的效果。
-
关键词
伪语料生成
中文拼写检查
编辑距离
-
Keywords
Pseudo corpus generation
Chinese spelling checking
Edit distance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名语言知识驱动的词嵌入向量的可解释性研究
被引量:2
- 2
-
-
作者
林星星
邱晓枫
刘扬
虞梦夏
祁晶
康司辰
-
机构
哈尔滨工业大学(深圳)计算机科学与技术学院
北京大学计算语言学教育部重点实验室
北京大学中国语言文学系
-
出处
《中文信息学报》
CSCD
北大核心
2020年第8期1-9,共9页
-
基金
国家社会科学基金(16BYY137、18ZDA295)。
-
文摘
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论:语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。
-
关键词
可解释性
词嵌入向量
伪语料法
-
Keywords
interpretability
word embedding vector
pseudo-corpus method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于对比注意力机制的跨语言句子摘要系统
被引量:8
- 3
-
-
作者
殷明明
史小静
俞鸿飞
段湘煜
-
机构
苏州大学自然语言处理实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第5期86-93,共8页
-
基金
国家自然科学基金(61673289)
国家重点研发计划政府间国际科技创新合作重点专项(2016YFE0132100)。
-
文摘
当今句子摘要研究主要针对单语,即源端句子和目标端摘要短语属于同种语言,然而单语句子摘要严重制约了不同语言文本信息的快速获取。为解决该问题,提出一种跨语言句子摘要系统。借鉴回译思想,将单语句子摘要平行语料中的源端通过神经机器翻译系统翻译成另一种语言,将其与句子摘要平行语料中目标端的摘要短语共同构成跨语言的伪平行语料。在此基础上,利用对比注意力机制,实现目标端与源端序列中不相关信息的获取,解决了传统注意力机制中源端和目标端句子长度不匹配的问题。实验结果表明,与基于管道方法的单语句子摘要系统相比,该跨语言系统生成的摘要短语更流畅且符合人类语言表述方式,可达到接近单语的句子摘要水平。
-
关键词
跨语言句子摘要
平行语料
伪语料
对比注意力机制
管道方法
-
Keywords
cross-lingual sentence summarization
parallel corpus
pseudo corpus
contrastive attention mechanism
pipeline method
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于上下文翻译的有监督词义消歧研究
被引量:11
- 4
-
-
作者
杨陟卓
-
机构
山西大学计算机科学与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2017年第4期252-255,280,共5页
-
基金
国家自然科学基金项目(61502287)
山西省高校科技创新项目(2015105)
国家863计划项目(2015AA015407)资助
-
文摘
针对目前有监督词义消歧方法存在的数据稀疏问题,提出一种基于上下文翻译的词义消歧方法。该方法假设由歧义词上下文的译文所组成的语境与原上下文语境所表述的意义相似。根据此假设,首先,将译文所组成的上下文生成大量的伪训练语料;然后,利用真实训练语料和伪训练语料训练一个贝叶斯消歧模型;最后,利用该消歧模型决策歧义词的词义。实验结果表明,与传统的消歧方法相比,所提出的方法消歧准确率提高了4.35%,并且超过了参加SemEval-2007测评的最好的有监督消歧系统。
-
关键词
词义消歧
上下文扩充
机器翻译
伪训练语料
贝叶斯模型
-
Keywords
Data sparseness
Context expansion
Machine translation
Pseudo training data
Bayesian model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-