-
题名一种词法分析与字标注分词结合的方法
被引量:1
- 1
-
-
作者
黄小斌
余悦蒙
-
机构
厦门大学信息科学与技术学院
-
出处
《电脑知识与技术(过刊)》
2012年第3X期1814-1817,1820,共5页
-
文摘
提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训练产生的隐马模型(HMM)对待分词字符串进行字标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析的结果。该文将隐马模型中的viterbi算法修改成N-viterbi算法,采用N-viterbi算法可以实现查找分词图中的前N条最大概率路径。实验表明,该模型可以较准确的完成分词操作,同时可以产生有一定引导作用的词法分析结果。
-
关键词
分词
词法分析
字标注
n-viterbi
隐马模型
一体化
-
Keywords
word segmentation
lexical analysis
word-position tagging
n-viterbi
Hidden Markov Model
integration
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于贝叶斯网络的二元语法中文分词模型
被引量:8
- 2
-
-
作者
刘丹
方卫国
周泓
-
机构
北京航空航天大学经济管理学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第1期12-14,共3页
-
基金
国家自然科学基金资助项目(70521001)
-
文摘
提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率分别为99.68%和99.7%,分词速度约为每秒74800字。
-
关键词
中文分词
贝叶斯网络
VITERBI算法
N元语法
-
Keywords
Chinese word segmentation
Bayesian network
Viterbi algorithm
N-gram
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于音节首字母匹配的音译单元对齐方法
被引量:1
- 3
-
-
作者
赵明明
梁颖红
周美玲
姚建民
-
机构
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
苏州大学计算机科学与技术学院
-
出处
《江南大学学报(自然科学版)》
CAS
2009年第6期639-642,共4页
-
基金
国家自然科学基金项目(60970057)
江苏省现代企业信息化应用支撑软件工程技术研究与开发中心开放项目(SX200907)
-
文摘
音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于音节首字母匹配的音译单元对齐方法,该方法在音译单元的对齐中有较好的表现。
-
关键词
音译单元
机器音译
VITERBI算法
N—gram模型
-
Keywords
transliteration unit, machine transliteration, viterbi algorithm, n-gram mode
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于N-gram语言模型的汉字识别后处理研究
被引量:5
- 4
-
-
作者
董广宇
吕学强
王涛
施水才
-
机构
北京信息科技大学中文信息处理研究中心
北京拓尔思信息技术股份有限公司
-
出处
《微计算机信息》
2009年第10期276-278,共3页
-
基金
基金申请人:吕学强
项目名称:基于大规模真实文本的新词发现研究
基金颁发部门:北京市教委(KM200710772010)
-
文摘
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。
-
关键词
N元语言模型
维特比算法
汉字识别
后处理
-
Keywords
N-gram language model
Viterbi algorithm
Chinese character recognition
post-processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-