期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
汉英句子对齐长度计算方法的研究 被引量:7
1
作者 张霞 昝红英 张恩展 《计算机工程与设计》 CSCD 北大核心 2009年第18期4356-4358,F0003,共4页
传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位。提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉英句子对齐。... 传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位。提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉英句子对齐。实验结果表明,汉英句子对齐以词语作为句子长度计算单位时,正确率为99.01%,召回率为99.5%。 展开更多
关键词 自然语言处理 双语语料库 句子对齐 基于长度的方法 基于词汇的方法
下载PDF
基于锚点句对的汉维句子对齐方法 被引量:5
2
作者 塞麦提.麦麦提敏 侯敏 吐尔根.伊布拉音 《计算机工程》 CAS CSCD 北大核心 2015年第4期166-170,共5页
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词... 为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。 展开更多
关键词 平行语料库 句子对齐 锚点 基于长度的方法 基于词汇的方法
下载PDF
汉维句子对齐长度计算单位的研究
3
作者 塞麦提.麦麦提敏 吐尔根.伊布拉音 《现代计算机》 2018年第22期8-11,16,共5页
在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位... 在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位,最终提高汉维句子对齐的准确率。双语句子汉语字符数和维文词数之间相关系数较高,句子长度比值近似于正态分布。根据实验结果,汉文字符和维文单词是汉维句子对齐的最佳长度计算单位,句子对齐的准确率和召回率最高,分别达到94%和93.6%。 展开更多
关键词 汉语 维吾尔语 句子对齐 基于长度的方法 句子长度单位
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部