-
题名汉英句子对齐长度计算方法的研究
被引量:7
- 1
-
-
作者
张霞
昝红英
张恩展
-
机构
仰恩大学计算机与信息学院
郑州大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第18期4356-4358,F0003,共4页
-
基金
河南省教育厅自然科学基金项目(2007520050)
-
文摘
传统的基于长度的汉英双语句子对齐算法大都以字节作为汉英句子长度的计算单位。提出了几种不同的汉英句子长度计算方法,分别以句子所含动词、名词、形容词、实词、字节及所含全部词语个数作为句子的长度,进行基于长度的汉英句子对齐。实验结果表明,汉英句子对齐以词语作为句子长度计算单位时,正确率为99.01%,召回率为99.5%。
-
关键词
自然语言处理
双语语料库
句子对齐
基于长度的方法
基于词汇的方法
-
Keywords
natural language processing
bilingual corpora
sentence alignment
length-based method
lexical-based method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于锚点句对的汉维句子对齐方法
被引量:5
- 2
-
-
作者
塞麦提.麦麦提敏
侯敏
吐尔根.伊布拉音
-
机构
新疆大学信息科学与工程学院
中国传媒大学国家语言资源监测与研究有声媒体中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第4期166-170,共5页
-
基金
新疆维吾尔自治区自然科学基金资助项目(2012211B08)
-
文摘
为提高汉维句子对齐方法的准确率,提出一种分段句子对齐方法。采用词汇信息和长度信息相结合的策略,识别出能作为锚点的一对句子(锚点句对),并将其作为分割标志对全文进行分段,在各片段内使用基于长度的方法实现全部句子的对齐,采用词汇、数字、标点符号和长度信息提高方法的领域移植性,使用分段方法避免复杂的计算过程,从而解决错误蔓延问题。实验结果表明,该方法的准确率达到95.2%,比基于长度的句子对齐方法提高了2.7%。
-
关键词
平行语料库
句子对齐
锚点
基于长度的方法
基于词汇的方法
-
Keywords
parallel corpora
sentence alignment
anchor
length-based method
lexical-based method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-