-
题名面向机器辅助翻译的汉语语块自动抽取研究
被引量:12
- 1
-
-
作者
姜柄圭
张秦龙
谌贻荣
常宝宝
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期9-16,共8页
-
基金
国家973资助项目(2004CB318102)
国家863计划资助项目(2001AA1142102002AA117010)
-
文摘
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。
-
关键词
人工智能
机器翻译
语块抽取
串频统计
内部结合
紧密度
信息熵
语块组合规则
-
Keywords
artificial intellgence
machine translation
chunk
Nagao's algorithm
M. I
log-likelihood
entropy
chunk formation rules
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Web数据的本体概念抽取
被引量:1
- 2
-
-
作者
强彦
谢红薇
-
机构
太原理工大学计算机与软件学院
-
出处
《电脑开发与应用》
2007年第11期37-39,共3页
-
基金
山西省自然科学基金(No.20051035)资助
-
文摘
本体论(Ontology)在知识管理及语义网(Semantic Web)中越来越重要,但建造本体往往需要耗费大量的时间,且建造完成后本体的维护对知识管理者来说也是费时的工作。自动创建领域Ontology可以克服手工方法的不足,成为当前的研究热点之一;而概念是本体中最重要的组成部分之一,从半结构化的Web文档中自动抽取概念的效率和准确度的高低,直接决定了自动建造的本体的质量,提出一种自动的本体概念抽取模型,此模型不依赖于领域词典或核心本体,并且能达到快速有效地通过对中文Web文本挖掘自动地构建及更新领域本体概念的目的。
-
关键词
本体学习
互信息
知识获取术
语抽取
-
Keywords
ontology learning,mutual information,knowledge acquisition,term extraction
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-