-
题名基于锚点词对的双语词对齐算法
被引量:10
- 1
-
-
作者
张孝飞
陈肇雄
黄河燕
王建德
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第2期330-334,共5页
-
基金
国家自然科学基金项目(60272088
60502048)资助
国家"八六三"计划基金项目(2002AA117010-02)资助
-
文摘
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求.
-
关键词
自然语言处理
双语词对齐
语料
锚点词对
-
Keywords
NLP
bilingual word-alignment
corpora
anchor word-pair
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于统计的锚点词候选集的获取
- 2
-
-
作者
任飞亮
吕学强
吴宏林
姚天顺
-
机构
东北大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第32期55-57,80,共4页
-
基金
国家自然科学基金资助项目(编号:60083006)
国家973基础规划项目资助(编号:G19980305011)
-
文摘
段对齐是在双语语料库中把各个段和它们的相应译文建立起对应关系,进而为以后的句子级对齐、短语级对齐和词汇级对齐提供资源。它在整个对齐研究中起到一个承上启下的作用。利用锚点词信息完成段对齐是一种常用且有效的方法。锚点词要求数量少准确率高,同时更为重要的是它要求具有可以说明两个段之间有对应关系的相对明显的特征,这就是说并不是文章中的每个词都可以做锚点词,锚点词也不是越多越好,这也决定了获取过程中不能借助字典等辅助信息,而必须使用其它方法。文章提出一种新的锚点词候选集的获取方法,通过统计和相似计算来得到锚点词的候选集信息。通过控制统计串的出现频数和相似度的大小就可得到令人满意的可用的结果。实验结果表明,当取高阈值且高相似度时,就可得到很高的准确率。因而该方法是一种获取锚点词的有效方法。
-
关键词
双语语料库
锚点词
子串归并
向量
相似度
-
Keywords
Bilingual corpora,Anchor word,Substring reduction,Vector,Similarity
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名富媒体环境下语音和文本内容的对齐研究
被引量:1
- 3
-
-
作者
韦向峰
袁毅
张全
池毓焕
-
机构
中国科学院声学研究所
-
出处
《情报工程》
2019年第2期17-27,共11页
-
基金
富媒体数字出版内容组织与知识服务重点实验室开放基金项目(ZD2018-07/03):“面向语音与文本内容的富媒体关联研究与技术实现”
-
文摘
语音媒体和文本媒体是富媒体中重要的两种媒体,本文试图解决富媒体内容关联中语音和文本的自动对应和关联问题。本文通过自动语音识别、语音纠错处理、文本相似度计算等技术和方法,把语音和文本的对齐问题转化为文本之间相似和对齐的问题,通过从语音到文本、从文本到语音两种应用场景,用实验证明了该方法的可行性和有效性。本文的语音文本对齐技术将是富媒体融合特别是语音媒体和文本媒体之间进行融合的重要支撑技术,同时也为文本媒体和语音媒体的进一步关联重组和应用提供坚实的技术基础。
-
关键词
富媒体
语音识别
锚点词
编辑距离
最长递增子序列
-
Keywords
Rich media
speech recognition
anchor words
edit distance
maximum incremental subsequence
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
TP391.1
[自动化与计算机技术—计算机应用技术]
-