-
题名基于加权二部图的汉日词对齐
被引量:7
- 1
-
-
作者
吴宏林
刘绍明
于戈
-
机构
东北大学信息学院计算机软件与理论研究所
日本富士施乐公司
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期101-106,共6页
-
基金
富士施乐访问研究员计划的资助
-
文摘
高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA++的72%。
-
关键词
计算机应用
中文信息处理
词对齐
二部图
匹配
-
Keywords
computer application
Chinese information processing
word alignment
bipartite graph
matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名运用改进的分词方法进行外国译名识别的研究
被引量:4
- 2
-
-
作者
方华
王振华
陆汝占
刘绍明
-
机构
上海交通大学计算机科学与工程系
日本富士施乐公司
-
出处
《计算机仿真》
CSCD
2005年第3期217-220,共4页
-
文摘
该文首先介绍了基于词典的分词算法的语言模型和一种基于词典分词算法:最大词频分词法。分析了基于词典的分词算法的语言模型,指出其无法处理未登录词的原因。针对此原因,提出了引入动态词典的方法,将最大词频分词算法和局部频率法相结合以解决未登录词中译名识别的问题。最后,给出了一个系统实现。
-
关键词
咱然语言处理
分词
译名
最大词频分词算法
-
Keywords
Nature language process
Segmentation
Transliterated name
Maxim word frequency segment algorithm.
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-