期刊文献+
共找到62篇文章
< 1 2 4 >
每页显示 20 50 100
融合语义信息的汉老双语句子对齐方法
1
作者 谭琪辉 周兰江 张建安 《中文信息学报》 CSCD 北大核心 2023年第1期79-87,共9页
双语句子对齐能够为机器翻译、信息检索等跨语言领域任务提供高质量的平行语料,在低资源的老挝语自然语言处理研究中显得尤为重要。由于汉老双语文本中存在非单调对齐(交叉对齐和空对齐)的情况,容易影响汉老句子对齐的效果。此外,人名... 双语句子对齐能够为机器翻译、信息检索等跨语言领域任务提供高质量的平行语料,在低资源的老挝语自然语言处理研究中显得尤为重要。由于汉老双语文本中存在非单调对齐(交叉对齐和空对齐)的情况,容易影响汉老句子对齐的效果。此外,人名、地名作为新闻要素,大多属于未登录词,也给汉老句子对齐研究增加了难度。该文提出了一种融合局部和全局语义信息的汉老双语句子对齐方法。首先,将汉老双语句长特征和人名地名特征融入Glove词向量,然后利用双向门控循环单元对特征词向量进行编码,以得到更细粒度的句子局部信息。其次,引入交互注意力机制,提取双语句子中的全局信息,保证对上下文语义特征的有效利用。最后,在多层感知机的基础上引入KM算法,该方法可以处理非单调对齐文本,提高模型的泛化能力。实验结果表明,该方法显著提高了汉老双语新闻语料的对齐性能。 展开更多
关键词 汉老双语句子对齐 语义信息 双向门控循环单元 注意力机制
下载PDF
基于统计的汉英句子对齐研究 被引量:15
2
作者 吕学强 李清隐 +2 位作者 黄志丹 沈嫣娜 姚天顺 《小型微型计算机系统》 CSCD 北大核心 2004年第6期990-992,共3页
翻译比较规范的汉英语料适合用统计方法实现句子对齐 .但评价函数中的参数计算不能采用处理印欧语种的方法 ,而要针对汉英语种的特点进行调整 .在已有两种评价函数的基础上又提出五种评价函数 ,并进行了对比研究 .
关键词 双语语料 句子对齐 评价函数 参数计算
下载PDF
基于长度和位置信息的双语句子对齐方法 被引量:25
3
作者 李维刚 刘挺 +1 位作者 张宇 李生 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第5期689-692,共4页
提出了一种利用句子长度和位置信息的双语句子对齐方法,该方法的根本思想是:一定长度的句对在双语文本中的位置分布是相似的,利用(1∶1)型的句珠代替高频词作为候选锚点,使这种方法具有通用性.利用多种形式的测试数据进行的评价结果显示... 提出了一种利用句子长度和位置信息的双语句子对齐方法,该方法的根本思想是:一定长度的句对在双语文本中的位置分布是相似的,利用(1∶1)型的句珠代替高频词作为候选锚点,使这种方法具有通用性.利用多种形式的测试数据进行的评价结果显示,这种方法有着良好的健壮性和语言无关性,有效地解决了双语真实文本的句子对齐问题. 展开更多
关键词 句子对齐 双语语料库 锚点 长度和位置
下载PDF
基于自动抽取词汇信息的双语句子对齐 被引量:17
4
作者 刘昕 周明 +1 位作者 朱胜火 黄昌宁 《计算机学报》 EI CSCD 北大核心 1998年第S1期151-158,共8页
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基... 双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 展开更多
关键词 双语语料库 句子对齐 机器翻译
下载PDF
多策略汉维句子对齐 被引量:8
5
作者 田生伟 吐尔根.依布拉音 +2 位作者 禹龙 加米拉.吾守尔 杨飞宇 《计算机科学》 CSCD 北大核心 2010年第4期215-218,292,共5页
提出了一种错误抑制的多策略算法对齐汉维语句子。针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误... 提出了一种错误抑制的多策略算法对齐汉维语句子。针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误蔓延抑制在锚点内;在锚点之间,利用标点符号和长度混合方法进行句子对齐。算法实验结果验证了该多策略算法寻找的锚点的精度高,有效抑制了对齐错误的蔓延;采用的混合对齐算法,避免了基于词汇对齐算法的高时间复杂度的弱点,比传统的对齐算法性能有了较大提高,对齐准确率由95.0%提高到97.6%,召回率由96.8%提高到98.2%,采用的对齐正确性评价算法可以有效发现自动对齐中的噪音对齐。 展开更多
关键词 双语语料 错误抑制 句子对齐 混合策略 汉维句子
下载PDF
基于词典的汉藏句子对齐研究与实现 被引量:10
6
作者 于新 吴健 洪锦玲 《中文信息学报》 CSCD 北大核心 2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评... 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。 展开更多
关键词 汉藏句子对齐 词典 分词粒度 平行语料库 藏文信息处理
下载PDF
汉英句子对齐长度计算方法的研究 被引量:7
7
作者 张霞 昝红英 张恩展 《计算机工程与设计》 CSCD 北大核心 2009年第18期4356-4358,F0003,共4页
传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位。提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉英句子对齐。... 传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位。提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉英句子对齐。实验结果表明,汉英句子对齐以词语作为句子长度计算单位时,正确率为99.01%,召回率为99.5%。 展开更多
关键词 自然语言处理 双语语料库 句子对齐 基于长度的方法 基于词汇的方法
下载PDF
古汉语与现代汉语句子对齐研究 被引量:5
8
作者 刘颖 王楠 《计算机应用与软件》 CSCD 北大核心 2013年第11期127-130,共4页
对西汉时期司马迁所著《史记》原文(古文)与现代文译文(现代文)的平行语料进行句子对齐研究。对数线性模型将句子的长度特征、句子对齐模式特征和共现汉字特征相结合来对《史记》古文和现代文进行句子对齐。通过实验可以看出,同时考虑... 对西汉时期司马迁所著《史记》原文(古文)与现代文译文(现代文)的平行语料进行句子对齐研究。对数线性模型将句子的长度特征、句子对齐模式特征和共现汉字特征相结合来对《史记》古文和现代文进行句子对齐。通过实验可以看出,同时考虑句子长度、句子对齐模式和共现汉字三个特征,句子对齐的准确率和召回率是最高的,准确率为94.4%,召回率为94.3%。 展开更多
关键词 句子对齐 对数线性模型 对齐模式
下载PDF
混合策略的汉维句子对齐 被引量:3
9
作者 田生伟 吐尔根.依布拉音 禹龙 《计算机工程与应用》 CSCD 北大核心 2010年第34期143-145,170,共4页
提出了一种混合算法对齐汉维句子,不需要汉语分词、词性标注预处理,利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,作为基于词汇对齐的词典,并结合基于长度的方法进行句子对齐,实验结果验证了该混合算法的有效性,汉维语句子对齐... 提出了一种混合算法对齐汉维句子,不需要汉语分词、词性标注预处理,利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,作为基于词汇对齐的词典,并结合基于长度的方法进行句子对齐,实验结果验证了该混合算法的有效性,汉维语句子对齐的正确率和召回率,达到了97.5%和97.1%。 展开更多
关键词 双语语料 句子对齐 混合策略
下载PDF
基于句子对齐的汉语句法结构推导的计算模型 被引量:2
10
作者 王厚峰 王波 《软件学报》 EI CSCD 北大核心 2007年第3期538-546,共9页
基于句子的相似性,提出了无指导的汉语句法结构推导方法.基本思想是:首先,在汉语句子库的基础上,通过句对之间的对齐,得到交替的相同片断和相异片断.然后,根据相同片断优先或相异片断优先策略,选取相应的对齐片断作为句子成分候选,并对... 基于句子的相似性,提出了无指导的汉语句法结构推导方法.基本思想是:首先,在汉语句子库的基础上,通过句对之间的对齐,得到交替的相同片断和相异片断.然后,根据相同片断优先或相异片断优先策略,选取相应的对齐片断作为句子成分候选,并对可能因片断交叉而导致边界摩擦的候选进行歧义消解.最后,通过逐步归约句子成分,推导出汉语句法结构树.为了避免对齐过程中词的稀疏问题,还对部分具有明显规律的词事先作了归类处理.分别以词、词性以及词联合词性作为句子基本构成单元,评测了推导的句法结果.测试结果表明:对于3种构成单元,相异片断优先归约得到的结果的F值都超过了46%,均优于相同片断优先归约所得到的结果,最好的达到了49.52%,好于已报道的结果. 展开更多
关键词 句子对齐 无指导学习 边界摩擦 相同优先 相异优先 汉语句法结构推导
下载PDF
改进的自适应汉维句子对齐 被引量:1
11
作者 田生伟 禹龙 杨飞宇 《计算机工程与应用》 CSCD 北大核心 2011年第35期147-149,共3页
提出了改进的自适应汉维句子对齐算法对齐汉维语句子。针对传统对齐方法不能较好地适应语料类型的变化,算法利用当前待对齐汉维文本的字节长度比和历史匹配模式数据,动态修正对齐模型的参数,使其适应语料类型的变化,提高了汉维句子对齐... 提出了改进的自适应汉维句子对齐算法对齐汉维语句子。针对传统对齐方法不能较好地适应语料类型的变化,算法利用当前待对齐汉维文本的字节长度比和历史匹配模式数据,动态修正对齐模型的参数,使其适应语料类型的变化,提高了汉维句子对齐算法的性能,对齐的正确率和召回率较长度对齐模型分别提高了3.5个百分点和2.7个百分点,较混合对齐提高了1.9个百分点和1.8个百分点。实验结果验证了该算法能够有效地适应语料类型的变化。 展开更多
关键词 双语语料 句子对齐 自适应
下载PDF
二分图顶点配对模型下的英汉句子对齐研究 被引量:3
12
作者 严灿勋 《中文信息学报》 CSCD 北大核心 2016年第5期153-159,共7页
英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;... 英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;在此基础上,根据句子先后顺序,局部最大权重顶点配对和英汉句长比的值域范围,纠正临时锚点中的错误,补充锚点序列未覆盖的合法顶点对,同时划分句对,实现句子对齐处理。在对比实验中该句子对齐方法优于Champollion句子对齐系统。从实验对比结果和实践效果看,该句子对齐方法可行。 展开更多
关键词 句子对齐 双语词典 平行文本 二分图 顶点配对 顶点对
下载PDF
基于锚点信息和句子长度相结合的汉藏句子对齐方法研究 被引量:2
13
作者 才藏太 索南才让 《青海师范大学民族师范学院学报》 2016年第1期91-93,共3页
语料库资源对于自然语言处理研究的巨大价值已经得到社会各界越来越多的认可。特别是句子级对齐的双语平行语料库,已经成为机器翻译、翻译知识获取以及双语词典编纂研究不可或缺的重要资源。本文结合青海省科技厅项目《汉藏句子自动对... 语料库资源对于自然语言处理研究的巨大价值已经得到社会各界越来越多的认可。特别是句子级对齐的双语平行语料库,已经成为机器翻译、翻译知识获取以及双语词典编纂研究不可或缺的重要资源。本文结合青海省科技厅项目《汉藏句子自动对齐技术研究》的研究经验,提出了一种利用句子长度和锚点信息相结合的汉藏双语句子对齐方法,该方法利用(1:1)型的句珠作为候选锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。 展开更多
关键词 藏文句子 句子对齐 锚点 双语文本图
下载PDF
一种汉藏双语句子对齐算法
14
作者 安见才让 王玲玲 《微处理机》 2011年第3期55-57,共3页
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐... 双语语料库建设及其自动对齐研究对计算语言学的发展具有重要意义。双语对齐技术是加工双语文本的核心,对齐效果的好坏直接影响了以后工作的进行。基于汉藏双语的实际情况,提出了一种利用句子长度、相似度和锚点信息的汉藏双语句子对齐方法,该方法用相似度找到句子的锚点,用锚点将双语文本分割成几个分块,在对应双语分块中用基于长度的对齐实现句子的对齐。通过测试数据进行的实验结果显示,这种方法有着良好的准确率,有效地解决了汉藏双语真实文本的句子对齐问题。 展开更多
关键词 汉藏双语语料库 句子对齐 锚点 长度 相似度
下载PDF
一种基于词典和长度相结合的汉-维句子对齐算法
15
作者 李英 李亚 《新乡学院学报》 2012年第1期66-68,共3页
提出了一种汉-维句子对齐混合算法,它是以基于词典的方法为主、基于长度的方法为辅的一种混合对齐算法.目的在于建立一个以汉文-维文平行语料库及面向政府文献的汉-维机器翻译为应用背景的,实用汉-维句子对齐系统.
关键词 双语语料库 句子对齐 机器翻译 自然语言处理
下载PDF
基于高斯混合模型的生物医学领域双语句子对齐 被引量:3
16
作者 陈相 林鸿飞 杨志豪 《中文信息学报》 CSCD 北大核心 2010年第4期68-73,共6页
双语术语词典在生物医学跨语言检索系统中有着非常重要的地位,而双语句子对齐是构建双语词典的第一步工作。为了构想面向生物医学领域的双语词典,该文将分类思想和迁移学习方法引入汉英句子对齐任务中,将句子对齐任务看成一个多类分类任... 双语术语词典在生物医学跨语言检索系统中有着非常重要的地位,而双语句子对齐是构建双语词典的第一步工作。为了构想面向生物医学领域的双语词典,该文将分类思想和迁移学习方法引入汉英句子对齐任务中,将句子对齐任务看成一个多类分类任务,考虑生物医学领域双语摘要的锚信息,利用高斯混合模型完成分类目标。同时,在模型训练过程中,该文引入了迁移学习的思想,结合无噪音的《新概念英语》双语语料对模型的句子长度特征进行训练,使得模型在测试语料上句子对齐的正确率得到较大提高。 展开更多
关键词 计算机应用 中文信息处理 句子对齐 高斯混合模型 迁移学习 锚信息
下载PDF
基于锚信息的生物医学文献双语摘要句子对齐 被引量:4
17
作者 陈相 林鸿飞 《中文信息学报》 CSCD 北大核心 2009年第1期58-62,78,共6页
双语句子对齐在双语语料库的处理中有着非常重要的地位,是构建双语词典的第一步工作。该文利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,... 双语句子对齐在双语语料库的处理中有着非常重要的地位,是构建双语词典的第一步工作。该文利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医学文献双语摘要语料中的锚信息,将生物医学摘要段落和句子进行分类计算相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的实验结果。 展开更多
关键词 计算机应用 中文信息处理 句子对齐 二部图 双语语料 相似度
下载PDF
基于多特征融合和图匹配的维汉句子对齐 被引量:2
18
作者 倪耀群 许洪波 程学旗 《中文信息学报》 CSCD 北大核心 2016年第4期124-133,共10页
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提... 维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。 展开更多
关键词 句子对齐 人名、地名翻译 多特征融合 二部图最佳匹配
下载PDF
基于维基百科的双语可比语料的句子对齐 被引量:3
19
作者 胡弘思 姚天昉 《中文信息学报》 CSCD 北大核心 2016年第1期198-203,共6页
该文提出了一种从维基百科的可比语料中抽取对齐句子的方法。在获取了维基百科中英文数据库备份并进行一定处理后,重构成本地维基语料数据库。在此基础上,统计了词汇数据、构建了命名实体词典,并通过维基百科本身的对齐机制获得了双语... 该文提出了一种从维基百科的可比语料中抽取对齐句子的方法。在获取了维基百科中英文数据库备份并进行一定处理后,重构成本地维基语料数据库。在此基础上,统计了词汇数据、构建了命名实体词典,并通过维基百科本身的对齐机制获得了双语可比语料文本。然后,该文在标注的过程中分析了维基百科语料的特点,以此为指导设计了一系列的特征,并确定了"对齐"、"部分对齐"、"不对齐"三分类体系,最终采用SVM分类器对维基百科语料和来自第三方的平行语料进行了句子对齐实验。实验表明:对于语言较规范的可比语料,分类器对对齐句的分类正确率可达到82%,对于平行语料,可以达到92%,这说明该方法是可行且有效的。 展开更多
关键词 句子对齐 可比语料 维基百科 SVM
下载PDF
基于锚点句对的汉维句子对齐方法 被引量:5
20
作者 塞麦提.麦麦提敏 侯敏 吐尔根.伊布拉音 《计算机工程》 CAS CSCD 北大核心 2015年第4期166-170,共5页
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词... 为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。 展开更多
关键词 平行语料库 句子对齐 锚点 基于长度的方法 基于词汇的方法
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部